Blog /
AI /
Meta představuje revoluční technologii pro přirozenou komunikaci s avatary

Meta představuje revoluční technologii pro přirozenou komunikaci s avatary

Ondřej Barták
Ondřej Barták
podnikatel a programátor
2. 7. 2025
4 minut čtení
Meta představuje revoluční technologii pro přirozenou komunikaci s avatary

Meta představuje revoluční technologii pro přirozenou komunikaci s avatary

Komunikace mezi lidmi je jako tanec, kde každá osoba neustále upravuje to, co říká, jak to říká a jak gestikuluje. Modelování dvoumístné nebo dyadické konverzační dynamiky zahrnuje pochopení multimodálního vztahu mezi hlasovými, verbálními a vizuálními sociálními signály – a interpersonálního chování mezi lidmi, jako je naslouchání, vizuální synchronie a střídání v řeči.

Představení rodiny Dyadic Motion Models

Meta Fundamental AI Research (FAIR) ve spolupráci s laboratořemi Codec Avatars a Core AI představuje rodinu Dyadic Motion Models, které zkoumají nové hranice sociální umělé inteligence. Tyto modely umí převést lidskou řeč nebo řeč generovanou jazykovými modely mezi dvěma osobami na rozmanité, expresivní gesta celého těla a chování aktivního naslouchání.

Modely zpracovávají zvukové a vizuální vstupy, aby zachytily detaily konverzační dynamiky s potenciálem vytvořit přirozenější a interaktivnější virtuální agenty, kteří se mohou zapojit do lidských sociálních interakcí v různých imerzivních prostředích.

Audio-Visual Dyadic Motion modely v akci

Audio-Visual (AV) Dyadic Motion modely dokážou společně generovat výrazy obličeje a gesta těla. Modely používají jako vstup zvuk, buď od dvou lidí nebo výstup z velkých jazykových modelů (LLM), aby vytvořily behaviorální komponentu. Představte si vizualizaci dříve nahraného podcastu mezi dvěma mluvčími – generování celého spektra emocí, gest a pohybů vyplývajících z jejich řeči.

AV Dyadic Motion modely produkují gesta a výrazy jednoho konkrétního mluvčího, přičemž berou v úvahu zvuk od obou lidí. To umožňuje modelům vizualizovat řečová gesta, gesta naslouchání a signály pro střídání v řeči. Modely jdou ještě o krok dále tím, že také berou v úvahu vizuální vstup druhé strany. To umožňuje modelům naučit se vizuální synchronizační signály, jako je zrcadlení úsměvu nebo společná pozornost pohledu.

Seamless Interaction Dataset – nevídaný rozsah dat

Seamless Interaction Dataset je největší známý video dataset osobních, dvoumístných konverzačních interakcí a je zásadní k pochopení a modelování toho, jak lidé komunikují a chovají se, když jsou spolu. Dataset zahrnuje:

  • Více než 4 000 hodin audiovizuálního behaviorálního materiálu s více než 4 000 účastníky
  • Přibližně 1 300 konverzačních a aktivitních podnětů s naturalistickým a improvizovaným obsahem
  • Bohatou kontextualizaci s metadaty na úrovni vztahů účastníků a osobnosti, spolu s téměř 5 000 video anotacemi

Všechny konverzace byly zaznamenány s účastníky na stejném místě, aby se zachovaly základní charakteristiky vtělené interakce a vyhnuly se nevýhodám vzdálené komunikace založené na videu. Z těchto nahrávek je jedna třetina interakcí mezi dvěma lidmi, kteří se navzájem znají, jako jsou členové rodiny, přátelé nebo kolegové.

Využití profesionálních herců pro diverzitu emocí

Bylo důležité, aby dataset zachytil širokou škálu lidských emocí a postojů, jako je překvapení, nesouhlas, odhodlání a lítost – jinými slovy, různorodost lidského chování tváří v tvář. Tyto typy interakcí je obtížné zachytit v naturalistických datech, takže tým najal profesionální herce se zkušenostmi s improvizací, aby ztvárnili řadu rolí a emocí. Tyto konverzace tvoří přibližně jednu třetinu datasetu.

Pokročilé funkce modelů

Modely byly navrženy tak, aby vydávaly mezikódy pro pohyb obličeje a těla, což odemyká širokou škálu možností pro jejich aplikaci. Tento přístup umožňuje adaptovat tyto modely pro použití v různých kontextech, včetně generování 2D videa a animace 3D Codec Avatars, které lze použít v imerzivních VR a AR zážitcích.

Výzkumníci navíc vyvinuli tyto modely začleněním dalších parametrů kontroly, což poskytuje větší flexibilitu a kontrolu nad chováním modelů. To může být obzvláště užitečné, když uživatelé nebo designéři chtějí upravit expresivitu avatara při mluvení nebo naslouchání.

Bezpečnostní opatření a ochrana soukromí

Meta prioritizuje soukromí, etiku a kvalitu při sběru a zpracování dat pro svůj výzkum. Během vytváření datasetu účastníci souhlasili se sběrem svých nahraných konverzací a byli upozorněni, aby se vyhnuli sdílení osobně identifikovatelných informací.

Byl implementován vícestupňový proces zajištění kvality:

  • Lidské recenze: Lidští recenzenti hodnotili video obsah na známky citlivého materiálu
  • Analýza textových přepisů pomocí LLM: Písemné přepisy byly analyzovány za účelem detekce citlivého materiálu
  • Analýza videa pomocí Video Language modelů: Video Language modely byly použity k detekci citlivého materiálu

Watermarking technologie pro autenticitu

Meta používá AudioSeal a VideoSeal k označování obsahu vodoznaky, který je generován z jejich audiovizuálních behaviorálních modelů. Tyto modely umožňují vkládat tajné zprávy do jednotlivých snímků původního obsahu, které pak mohou být extrahovány detektory. To umožňuje ověřit autenticitu a původ obsahu i po zpracování nebo manipulaci.

Budoucnost sociálních technologií

Výzkumné modely mají potenciál transformovat budoucí sociální technologie, které pomáhají zlepšit náš každodenní život, bavit nás a přiblížit nás k sobě. Prioritizováním odpovědných praktik umělé inteligence Meta doufá, že bude nadále budovat důvěru ve své modely a vytvářet technologie, které prospívají všem.

Dataset a technická zpráva, kterou tým sdílí, mohou sloužit jako plán pro budoucí výzkum audiovizuálního behaviorálního modelování interakcí. Tyto modelovací schopnosti postavené na datasetu pomohou transformovat sociální virtuální agenty, technologie telepresence v prostředí VR a AR a multimodální analýzu video obsahu.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI
Elon Musk představil na interním setkání společnosti xAI ambiciózní plány na výstavbu měsíční základny, která by sloužila k výrobě a vypouštění sateli...
5 min čtení
13. 2. 2026
Auditor Mety zvedl varovný prst před dalším financováním datových center Auditor Mety zvedl varovný prst před dalším financováním datových center
Meta Platforms čelí neobvyklému varování od svého auditora Ernst & Young (EY) ohledně účetního zpracování projektu datového centra v hodnotě 27 miliar...
3 min čtení
13. 2. 2026
Čeká OpneAI s reklamami stejný osud jako Facebook? Čeká OpneAI s reklamami stejný osud jako Facebook?
Zoë Hitzig, ekonomka a členka Harvard Society of Fellows, rezignovala na svou pozici v OpenAI. Svůj odchod oznámila ve středu prostřednictvím článku v...
5 min čtení
13. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.