Blog /
AI /
Průlom v komunikaci: AI sluchátka pro překlad více mluvčích s klonováním hlasu a 3D zvukem

Průlom v komunikaci: AI sluchátka pro překlad více mluvčích s klonováním hlasu a 3D zvukem

Ondřej Barták
Ondřej Barták
podnikatel a programátor
21. 5. 2025
2 minut čtení
Průlom v komunikaci: AI sluchátka pro překlad více mluvčích s klonováním hlasu a 3D zvukem

Průlom v jazykové komunikaci: AI sluchátka pro překlad více mluvčích s klonováním hlasu a 3D zvukem

Výzkumníci z Univerzity ve Washingtonu vyvinuli nový systém sluchátek nazvaný Spatial Speech Translation (Prostorový překlad řeči), který dokáže v reálném čase překládat projevy více mluvčích najednou, klonovat jejich hlasy a zachovávat prostorové směrování zvuku každého řečníka.

Jak se to povedlo?

Systém využívá běžně dostupná sluchátka s aktivním potlačením hluku, která jsou vybavena mikrofony pro zachycení okolních konverzací. Pokročilé algoritmy dokáží rozlišit různé mluvčí - a to i v hlučném prostředí - a sledovat je, když se pohybují v prostoru. Hlas každého mluvčího je izolován, přeložen do preferovaného jazyka posluchače a poté přehrán přes sluchátka s krátkou prodlevou, která typicky činí 2-4 sekundy. Zásadní inovací je, že překlad zachovává nejen informaci o tom, kdo mluví, ale také odkud zvuk přichází vzhledem k pozici posluchače. Vytváří se tak pohlcující 3D zvukový zážitek, kde každý přeložený hlas zní, jako by přicházel z původního směru. "Poprvé se nám podařilo zachovat zvuk hlasu každé osoby a směr, ze kterého přichází," říká profesor Shyam Gollakota z Paul G. Allen School of Computer Science & Engineering na Univerzitě ve Washingtonu. Tato technologie také klonuje jedinečné hlasové kvality každého člověka, takže překlady si zachovávají individuální tón a barvu tónu, místo aby používaly generické robotické hlasy.

Prototyp kombinuje komerčně dostupná sluchátka (například Sony SH-100XM4) s binaurálními mikrofony, které napodobují lidský sluch. Zvukové signály jsou zpracovávány neuronovými sítěmi běžícími na výkonném lokálním hardwaru, jako jsou čipy Apple M2 - pro zajištění soukromí není vyžadováno žádné připojení ke cloudu. Algoritmy fungují "jako radar", neustále skenují prostor v okruhu 360 stupňů, aby detekovaly, kolik lidí mluví, a aktualizují situaci, když se účastníci pohybují nebo se připojují či opouštějí konverzaci. Současná verze podporuje španělštinu, francouzštinu a němčinu, ale cílem je rozšířit podporu až na přibližně 100 jazyků. Zdrojový kód byl uvolněn jako open source, aby umožnil další vývoj této technologie odborníky v oboru. Výzkumníci předpokládají využití v různých oblastech od cestování a turistiky až po mezinárodní obchodní jednání.

Technické inovace systému zahrnují schopnost zpracovávat více mluvčích současně - na rozdíl od předchozích systémů omezených na jednoho mluvčího; klonování hlasu, které zachovává jedinečné hlasové charakteristiky každého mluvčího; prostorový (3D) zvuk, který uchovává směrové podněty, takže slyšíte překlady z míst, kde lidé skutečně stojí; zpracování v reálném čase, které poskytuje překlady během 2-4 sekund; a zpracování přímo na zařízení, které zajišťuje soukromí, protože veškeré zpracování probíhá lokálně na zařízeních jako jsou notebooky nebo náhlavní soupravy Apple Vision Pro.

Tato technologie je významný pokrok v překonávání jazykových bariér během skupinových interakcí a činí vícejazyčnou komunikaci přirozenější než kdykoli předtím. Výzkumníci z Univerzity ve Washingtonu tak otevírají nové možnosti pro interkulturní komunikaci a spolupráci v globalizovaném světě.

Kategorie: AI

Komentáře

0

Chcete se zapojit do diskuze?

Buďte ve spojení s komunitou a získejte přístup k exkluzivnímu obsahu.

Zatím žádné komentáře. Buďte první!

Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Odpověd za 0,4 sekundy. Interaction model od Thinking Machines předčí OpenAI i Google Odpověd za 0,4 sekundy. Interaction model od Thinking Machines předčí OpenAI i Google
Každý, kdo někdy mluvil s hlasovým asistentem, zná ten moment. Domluvíte větu, nastane ticho, chvíle čekání a pak přijde odpověď. Celé to působí jako...
4 min čtení
14. 5. 2026
Tisíce lidí si koupily Mac Mini jako domácí AI server. Apple nestíhá doplňovat zásoby Tisíce lidí si koupily Mac Mini jako domácí AI server. Apple nestíhá doplňovat zásoby
Tyler Cadwell jezdí v Arizoně po kaňonech ve svém Fordu Bronco. Na sedadle spolujezdce má Mac Mini. Zapojený do přenosné baterie, připojený ke Starlin...
4 min čtení
14. 5. 2026
OpenAI otevírá EU přístup ke svému kybernetickému modelu zatím co Anthropic mlčí OpenAI otevírá EU přístup ke svému kybernetickému modelu zatím co Anthropic mlčí
Brusel žil v posledních týdnech v nejistotě. Nové generace umělé inteligence se umí naučit hackovat software, odhalovat zranitelnosti v systémech a...
3 min čtení
13. 5. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.