Blog /
AI /
Umělá inteligence se učí propojovat zvuk a obraz bez lidského zásahu

Umělá inteligence se učí propojovat zvuk a obraz bez lidského zásahu

Ondřej Barták
Ondřej Barták
podnikatel a programátor
26. 5. 2025
3 minut čtení
Umělá inteligence se učí propojovat zvuk a obraz bez lidského zásahu

Umělá inteligence se učí propojovat zvuk a obraz bez lidského zásahu

Vědci z MIT a jejich kolegové vyvinuli nový systém strojového učení, který dokáže samostatně objevit, jak spolu souvisí zvukové a vizuální informace, což představuje pokrok v oblasti umělé inteligence a multimodálního učení. Výzkumný tým představil systém nazvaný CAV-MAE Sync, který přináší několik zásadních vylepšení oproti předchozím přístupům a dosahuje lepších výsledků než mnohem složitější architektury.

Lidé vnímají svět multimodálně, přičemž sluchové a vizuální vnímání jsou spolu velmi úzce propojeny. Právě tato přirozená schopnost inspirovala vědce z Massachusettského technologického institutu (MIT), IBM Research, Univerzity Goethe ve Frankfurtu a dalších institucí k vytvoření systému, který dokáže efektivněji propojovat zvuk a obraz v digitálním prostředí. Jejich výzkum, publikovaný v květnu 2025, představuje pokrok v oblasti učení bez dohledu, kdy se AI systémy učí bez nutnosti označených dat nebo lidských instrukcí. Dosavadní přístupy k audio-vizuálnímu učení obvykle využívaly globální zvukové reprezentace, což v praxi znamenalo, že například 10 sekund zvuku bylo přiřazeno k jednomu snímku videa. Tento přístup však nedokázal zachytit jemnější časové souvislosti mezi zvukem a obrazem. Navíc se tyto metody potýkaly s konfliktními optimalizačními cíli, když se snažily současně učit rekonstrukci a mezimodální zarovnání.

Nový přístup k učení

Nový systém CAV-MAE Sync tyto problémy řeší originálním způsobem, kdy zpracovává zvuk jako časovou sekvenci zarovnanou s jednotlivými snímky videa, místo použití globálních reprezentací. "V našem novém přístupu řešíme tři klíčové výzvy," vysvětluje výzkumný tým ve své publikaci. "Zaprvé řešíme nesoulad granularity mezi modalitami tím, že se zvukem zacházíme jako s časovou sekvencí zarovnanou s video snímky. Zadruhé řešíme konfliktní optimalizační cíle oddělením kontrastivních a rekonstrukčních úkolů prostřednictvím vyhrazených globálních tokenů. A zatřetí zlepšujeme prostorovou lokalizaci zavedením naučitelných registračních tokenů, které snižují sémantickou zátěž tokenů reprezentujících části obrazu."

Výzkumníci včetně Yuana Gonga a Andrewa Rouditchenka z MIT, Edsona Arauja z Univerzity Goethe ve Frankfurtu a dalších testovali svůj systém na několika standardních datasetech, včetně AudioSet, VGG Sound a ADE20K Sound. Hodnotili jeho výkon v úlohách jako je vyhledávání bez trénování (zero-shot retrieval), klasifikace a lokalizace. Výsledky ukazují, že CAV-MAE Sync dosahuje špičkových výsledků a překonává složitější architektury. Jedním z klíčových vylepšení je způsob, jakým systém pracuje s časovým zarovnáním zvuku a obrazu. Namísto použití jedné zvukové reprezentace pro celé video, CAV-MAE Sync extrahuje zvukové segmenty odpovídající jednotlivým snímkům videa. Tím zajišťuje, že každý zvukový segment je časově zarovnán s příslušným snímkem videa, což zvyšuje koherenci mezi modalitami a umožňuje přesnější učení souvislostí.

Dalším významným přínosem je zavedení globálních tokenů pro kontrastivní úkoly. Zatímco tradiční přístupy agregují tokeny částí k vytvoření globálních reprezentací, CAV-MAE Sync zavádí vyhrazené globální tokeny speciálně pro kontrastivní úkoly. Tím snižuje informační zátěž na tokeny reprezentující části obrazu, které se nyní mohou soustředit na rekonstrukci, zatímco globální tokeny agregují informace během fází kódování jednotlivých modalit i jejich společného zpracování. Výzkumníci také implementovali tzv. registrační tokeny, které pomáhají udržet tokeny částí zaměřené na rekonstrukční úkoly a umožňují globálním tokenům soustředit se na kontrastivní úkoly. Toto oddělení zlepšuje schopnost modelu zachytit sémantické informace a provádět lokalizaci. Registrační tokeny jsou přidány k tokenovým sekvencím a jsou zpracovávány ve společné vrstvě stejným způsobem jako globální tokeny.

Výsledky experimentů jsou působivé - v úloze vyhledávání dosáhl systém 35,2 % přesnosti při vyhledávání správných odpovídajících zvuků k vizuálním dotazům na datasetu AudioSet, což představuje výrazné zlepšení oproti předchozím metodám. V klasifikačních úlohách dosáhl 30,5 mAP na AudioSet-20K a 52,7 % přesnosti na VGGSound, opět překonávající srovnatelné přístupy. "Naše práce ukazuje, že vylepšením časového zarovnání mezi audio a vizuálními modalitami a oddělením konfliktních optimalizačních cílů můžeme dosáhnout lepších výsledků s jednodušší architekturou," uzavírají výzkumníci. Tento pokrok má potenciální aplikace v široké škále oblastí, od vyhledávání na základě zvuku a obrazu, přes klasifikaci multimediálního obsahu až po lokalizaci zvukových zdrojů ve vizuálních scénách.

Visual a audio benchmark

Výzkum byl podpořen Německým spolkovým ministerstvem školství a výzkumu a laboratoří MIT-IBM Watson AI. Vědci také zpřístupnili svůj kód na GitHubu, aby umožnili další výzkum a vývoj v této oblasti.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI
Elon Musk představil na interním setkání společnosti xAI ambiciózní plány na výstavbu měsíční základny, která by sloužila k výrobě a vypouštění sateli...
5 min čtení
13. 2. 2026
Auditor Mety zvedl varovný prst před dalším financováním datových center Auditor Mety zvedl varovný prst před dalším financováním datových center
Meta Platforms čelí neobvyklému varování od svého auditora Ernst & Young (EY) ohledně účetního zpracování projektu datového centra v hodnotě 27 miliar...
3 min čtení
13. 2. 2026
Čeká OpneAI s reklamami stejný osud jako Facebook? Čeká OpneAI s reklamami stejný osud jako Facebook?
Zoë Hitzig, ekonomka a členka Harvard Society of Fellows, rezignovala na svou pozici v OpenAI. Svůj odchod oznámila ve středu prostřednictvím článku v...
5 min čtení
13. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.