Průlom v jazykové komunikaci: AI sluchátka pro překlad více mluvčích s klonováním hlasu a 3D zvukem
Výzkumníci z Univerzity ve Washingtonu vyvinuli nový systém sluchátek nazvaný Spatial Speech Translation (Prostorový překlad řeči), který dokáže v reálném čase překládat projevy více mluvčích najednou, klonovat jejich hlasy a zachovávat prostorové směrování zvuku každého řečníka.
Jak se to povedlo?
Systém využívá běžně dostupná sluchátka s aktivním potlačením hluku, která jsou vybavena mikrofony pro zachycení okolních konverzací. Pokročilé algoritmy dokáží rozlišit různé mluvčí - a to i v hlučném prostředí - a sledovat je, když se pohybují v prostoru. Hlas každého mluvčího je izolován, přeložen do preferovaného jazyka posluchače a poté přehrán přes sluchátka s krátkou prodlevou, která typicky činí 2-4 sekundy. Zásadní inovací je, že překlad zachovává nejen informaci o tom, kdo mluví, ale také odkud zvuk přichází vzhledem k pozici posluchače. Vytváří se tak pohlcující 3D zvukový zážitek, kde každý přeložený hlas zní, jako by přicházel z původního směru. "Poprvé se nám podařilo zachovat zvuk hlasu každé osoby a směr, ze kterého přichází," říká profesor Shyam Gollakota z Paul G. Allen School of Computer Science & Engineering na Univerzitě ve Washingtonu. Tato technologie také klonuje jedinečné hlasové kvality každého člověka, takže překlady si zachovávají individuální tón a barvu tónu, místo aby používaly generické robotické hlasy.
Prototyp kombinuje komerčně dostupná sluchátka (například Sony SH-100XM4) s binaurálními mikrofony, které napodobují lidský sluch. Zvukové signály jsou zpracovávány neuronovými sítěmi běžícími na výkonném lokálním hardwaru, jako jsou čipy Apple M2 - pro zajištění soukromí není vyžadováno žádné připojení ke cloudu. Algoritmy fungují "jako radar", neustále skenují prostor v okruhu 360 stupňů, aby detekovaly, kolik lidí mluví, a aktualizují situaci, když se účastníci pohybují nebo se připojují či opouštějí konverzaci. Současná verze podporuje španělštinu, francouzštinu a němčinu, ale cílem je rozšířit podporu až na přibližně 100 jazyků. Zdrojový kód byl uvolněn jako open source, aby umožnil další vývoj této technologie odborníky v oboru. Výzkumníci předpokládají využití v různých oblastech od cestování a turistiky až po mezinárodní obchodní jednání.
Technické inovace systému zahrnují schopnost zpracovávat více mluvčích současně - na rozdíl od předchozích systémů omezených na jednoho mluvčího; klonování hlasu, které zachovává jedinečné hlasové charakteristiky každého mluvčího; prostorový (3D) zvuk, který uchovává směrové podněty, takže slyšíte překlady z míst, kde lidé skutečně stojí; zpracování v reálném čase, které poskytuje překlady během 2-4 sekund; a zpracování přímo na zařízení, které zajišťuje soukromí, protože veškeré zpracování probíhá lokálně na zařízeních jako jsou notebooky nebo náhlavní soupravy Apple Vision Pro.
Tato technologie je významný pokrok v překonávání jazykových bariér během skupinových interakcí a činí vícejazyčnou komunikaci přirozenější než kdykoli předtím. Výzkumníci z Univerzity ve Washingtonu tak otevírají nové možnosti pro interkulturní komunikaci a spolupráci v globalizovaném světě.
