Blog /
AI /
Průlom v komunikaci: AI sluchátka pro překlad více mluvčích s klonováním hlasu a 3D zvukem

Průlom v komunikaci: AI sluchátka pro překlad více mluvčích s klonováním hlasu a 3D zvukem

Ondřej Barták
Ondřej Barták
podnikatel a programátor
21. 5. 2025
2 minut čtení
Průlom v komunikaci: AI sluchátka pro překlad více mluvčích s klonováním hlasu a 3D zvukem

Průlom v jazykové komunikaci: AI sluchátka pro překlad více mluvčích s klonováním hlasu a 3D zvukem

Výzkumníci z Univerzity ve Washingtonu vyvinuli nový systém sluchátek nazvaný Spatial Speech Translation (Prostorový překlad řeči), který dokáže v reálném čase překládat projevy více mluvčích najednou, klonovat jejich hlasy a zachovávat prostorové směrování zvuku každého řečníka.

Jak se to povedlo?

Systém využívá běžně dostupná sluchátka s aktivním potlačením hluku, která jsou vybavena mikrofony pro zachycení okolních konverzací. Pokročilé algoritmy dokáží rozlišit různé mluvčí - a to i v hlučném prostředí - a sledovat je, když se pohybují v prostoru. Hlas každého mluvčího je izolován, přeložen do preferovaného jazyka posluchače a poté přehrán přes sluchátka s krátkou prodlevou, která typicky činí 2-4 sekundy. Zásadní inovací je, že překlad zachovává nejen informaci o tom, kdo mluví, ale také odkud zvuk přichází vzhledem k pozici posluchače. Vytváří se tak pohlcující 3D zvukový zážitek, kde každý přeložený hlas zní, jako by přicházel z původního směru. "Poprvé se nám podařilo zachovat zvuk hlasu každé osoby a směr, ze kterého přichází," říká profesor Shyam Gollakota z Paul G. Allen School of Computer Science & Engineering na Univerzitě ve Washingtonu. Tato technologie také klonuje jedinečné hlasové kvality každého člověka, takže překlady si zachovávají individuální tón a barvu tónu, místo aby používaly generické robotické hlasy.

Prototyp kombinuje komerčně dostupná sluchátka (například Sony SH-100XM4) s binaurálními mikrofony, které napodobují lidský sluch. Zvukové signály jsou zpracovávány neuronovými sítěmi běžícími na výkonném lokálním hardwaru, jako jsou čipy Apple M2 - pro zajištění soukromí není vyžadováno žádné připojení ke cloudu. Algoritmy fungují "jako radar", neustále skenují prostor v okruhu 360 stupňů, aby detekovaly, kolik lidí mluví, a aktualizují situaci, když se účastníci pohybují nebo se připojují či opouštějí konverzaci. Současná verze podporuje španělštinu, francouzštinu a němčinu, ale cílem je rozšířit podporu až na přibližně 100 jazyků. Zdrojový kód byl uvolněn jako open source, aby umožnil další vývoj této technologie odborníky v oboru. Výzkumníci předpokládají využití v různých oblastech od cestování a turistiky až po mezinárodní obchodní jednání.

Technické inovace systému zahrnují schopnost zpracovávat více mluvčích současně - na rozdíl od předchozích systémů omezených na jednoho mluvčího; klonování hlasu, které zachovává jedinečné hlasové charakteristiky každého mluvčího; prostorový (3D) zvuk, který uchovává směrové podněty, takže slyšíte překlady z míst, kde lidé skutečně stojí; zpracování v reálném čase, které poskytuje překlady během 2-4 sekund; a zpracování přímo na zařízení, které zajišťuje soukromí, protože veškeré zpracování probíhá lokálně na zařízeních jako jsou notebooky nebo náhlavní soupravy Apple Vision Pro.

Tato technologie je významný pokrok v překonávání jazykových bariér během skupinových interakcí a činí vícejazyčnou komunikaci přirozenější než kdykoli předtím. Výzkumníci z Univerzity ve Washingtonu tak otevírají nové možnosti pro interkulturní komunikaci a spolupráci v globalizovaném světě.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

OpenAI staví v Londýně největší výzkumné centrum mimo USA OpenAI staví v Londýně největší výzkumné centrum mimo USA
Londýn si právě připsal velké vítězství v globálním závodě o umělou inteligenci. OpenAI, tvůrce ChatGPT oznámil, že z londýnské pobočky udělá svůj n...
3 min čtení
27. 2. 2026
AI agent OpenClaw neposlech příkaz a smazal e-maily bezpečnostní expertce z Mety AI agent OpenClaw neposlech příkaz a smazal e-maily bezpečnostní expertce z Mety
Summer Yue, výzkumnice v oblasti AI bezpečnosti pracující pro Metu, svěřila svůj přeplněný e-mailový inbox autonomnímu AI agentovi OpenClaw s jednoduc...
4 min čtení
27. 2. 2026
Šokující výsledky simulací: AI modely volily jaderný úder v 95 % válečných scénářů Šokující výsledky simulací: AI modely volily jaderný úder v 95 % válečných scénářů
Profesor Kenneth Payne z londýnské King's College London posadil tři nejpokročilejší jazykové modely světa ke stolu a řekl jim: hrajeme válečnou hru...
3 min čtení
27. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.