Vědci z University of Liverpool vytvořili nový počítačový model, který spojuje zrak a sluch podobně jako lidský mozek. Tento model vychází z biologického mechanismu, který byl poprvé objeven u hmyzu a pomáhá jim detekovat pohyb. Dr. Cesare Parise, starší lektor psychologie na University of Liverpool, upravil tento mechanismus tak, aby zpracovával skutečné audiovizuální signály, jako je video a zvuk, místo abstraktních parametrů, na kterých se spoléhaly starší modely.
Když lidé sledují někoho mluvit, mozek automaticky propojuje to, co vidí, s tím, co slyší. Tato synchronizace vysvětluje iluze jako McGurkův efekt, kdy nesoulad mezi zvuky a pohyby rtů vytváří nové vnímání, nebo ventriloquistickou iluzi, kdy hlas zdánlivě vychází z loutky. Parise zkoumal základní otázku, jak mozek ví, kdy se zvuk a obraz shodují. Starší výpočetní modely to nedokázaly zpracovat přímo. Navzdory desetiletím výzkumu v audiovizuálním vnímání neexistoval model, který by dokázal vzít video jako vstup a říct, zda by zvuk byl vnímán jako synchronizovaný.
Jak model funguje?
Nový systém staví na dřívější práci Parise a Marca Ernsta z University of Bielefeld v Německu. Jejich výzkum představil princip detekce korelace jako možné vysvětlení, jak mozek spojuje smyslové signály. To vedlo k Multisensory Correlation Detector (MCD, multisenzorický detektor korelace), který dokázal napodobit lidské reakce na jednoduché audiovizuální vzory, jako blikání a cvakání.
V této nejnovější studii Parise simuloval mřížku těchto detektorů rozloženou přes vizuální a sluchový prostor. Tento setup umožnil modelu zpracovávat složité signály z reálného světa. Model napodobil výsledky ze 69 známých experimentů zahrnujících lidi, opice a krysy. Jedná se o největší simulaci v oboru. Model odpovídal chování napříč druhy a překonal přední Bayesian Causal Inference model (bayesovský model kauzální inference), přičemž používal stejný počet nastavitelných parametrů.
Model také předpovídal, kam se lidé dívají při sledování audiovizuálních scén, a fungoval jako lehký model saliency (model významnosti). Pracuje přímo na syrových audiovizuálních vstupech, takže ho lze aplikovat na jakýkoli materiál z reálného světa.
Proč je to důležité pro AI?
Parise věří, že jednoduchost modelu ho činí cenným i mimo neurovědu. Evoluce už vyřešila problém sladění zvuku a zraku pomocí jednoduchých výpočtů, které fungují napříč druhy a kontexty. Dnešní systémy umělé inteligence stále bojují se spolehlivým spojováním multimodálních informací. Současné audiovizuální modely závisí na velkých sítích s mnoha parametry, trénovaných na obrovských označených datových sadách, zatímco mřížka MCD je efektivní a nevyžaduje trénink.
To, co začalo jako model hmyzího vnímání pohybu, teď vysvětluje, jak mozky – lidské nebo jiné – integrují zvuk a zrak v řadě souvislostí. Od předpovídání iluzí jako McGurkův a ventriloquistický efekt až po odvozování kauzality a generování dynamických map saliency (map významnosti), nabízí nový plán pro neurovědu i výzkum umělé inteligence. Studie vyšla v časopise eLife.
Další zdroj: interestingengineering.com
