Blog /
AI /
Odpověd za 0,4 sekundy. Interaction model od Thinking Machines předčí OpenAI i Google

Odpověd za 0,4 sekundy. Interaction model od Thinking Machines předčí OpenAI i Google

Ondřej Barták
Ondřej Barták
podnikatel a programátor
14. 5. 2026
4 minut čtení
Poslechněte si článek
Audio verze článku
Odpověd za 0,4 sekundy. Interaction model od Thinking Machines předčí OpenAI i Google

Každý, kdo někdy mluvil s hlasovým asistentem, zná ten moment. Domluvíte větu, nastane ticho, chvíle čekání a pak přijde odpověď. Celé to působí jako starý telefonát přes satelit. Thinking Machines Lab, startup Miry Murati, bývalé technické ředitelky OpenAI, oznámil, že chce tento způsob změnit.

Firma zveřejnila výzkumný materiál o přístupu, který nazývá „interaction models". Jde o modely, jež zpracovávají vstup a generují odpověď současně, nikoli postupně. Technicky se tomuto principu říká full duplex a v lidské řeči to znamená, že vás umělá inteligence nemusí nechat domluvit, aby mohla začít reagovat.

Dnešní modely fungují jinak. Uživatel promluví a model naslouchá. Model začne odpovídat, uživatel mlčí. Tento způsob komunikace je funkční, ale umělý. Žádný skutečný rozhovor takhle nefunguje. Lidé si skáčou do řeči, opravují se navzájem uprostřed věty, reagují na výraz v obličeji druhého ještě dřív, než padne slovo. AI tohle zatím nedokázala.

Model Interaction

Model nepracuje s celými větami nebo odstavci jako se vstupem a výstupem, ale s takzvanými mikrotahy délky 200 milisekund. Každých 200 ms zpracuje kousek vstupu a zároveň vygeneruje kousek výstupu. Pro uživatele to vypadá jako plynulý rozhovor, pro model je to neustálé střídání poslechu a mluvení v drobných úsecích.

Aby to celé fungovalo dostatečně rychle, tým přepracoval i způsob, jakým model přijímá zvuk a obraz. Místo velkých předtrénovaných kodérů, jaké používá většina multimodálních modelů, vsadili na lehký systém zpracování přímo při tréninku. Zvuk přichází jako dMel spektrogramy, video jako 40×40 pixelové záplaty. Vše se trénuje od začátku jako jeden celek.

Pak je tu ještě jeden trik. Protože rychlý model nemůže být zároveň chytrý tak jako pomalejší systémy pro hluboké přemýšlení, Thinking Machines přidal do systému druhý, pomalejší model pracující na pozadí. Interaction model vede konverzaci, ale jakmile narazí na složitý úkol, přehodí ho na model v pozadí. Ten pracuje asynchronně a výsledky předává zpět do probíhajícího rozhovoru. Uživatel mezitím nepřestane mluvit s asistentem, jen se mu průběžně přidávají chytřejší odpovědi.

Výsledkem je model pojmenovaný TML-Interaction-Small. Latence, tedy prodleva od konce řeči uživatele po začátek odpovědi modelu, činí 0,40 sekundy. Pro srovnání: GPT-realtime-2.0 v minimální konfiguraci potřebuje 1,18 sekundy, Gemini-3.1-flash-live 0,57 sekundy. Přirozený lidský rozhovor se pohybuje přibližně ve stejném rozsahu jako výsledek TML.

Na benchmarku FD-bench V1.5, který měří kvalitu interakce v situacích jako přerušení uživatelem, souběžná řeč nebo reakce na vizuální podněty, dosáhl TML-Interaction-Small skóre 77,8, zatímco GPT-realtime-2.0 pouze 46,8 a Gemini-3.1-flash-live 45,5. To je výrazný rozdíl. Model má také celkem 276 miliard parametrů, přičemž aktivně využívá 12 miliard. Jde o architekturu MoE (mixture of experts), která aktivuje jen část parametrů pro každý vstup.

Demonstrace ukazují věci, které dosavadní hlasoví asistenti vůbec neumí. Model průběžně sleduje video a bez vyzvání upozorní, když si člověk u počítače sedne zkřívenými zády. Umí živě překládat, přičemž mluví zároveň s uživatelem, nikoli po něm. Počítá kliky při cvičení přímo z videa. Spustí vyhledávání na webu uprostřed rozhovoru a výsledky přirozeně zaplete do odpovědi.

Stojí za tím schopnost reagovat na vizuální podněty bez slovní výzvy. Dosavadní systémy, včetně GPT-realtime-2.0, čekají na zvukový signál. Pokud signál nepřijde, tak mlčí. Na interním benchmarku Charades, kde má model odhadnout začátek a konec akce ve videu pouze na základě vizuálních signálů, dosáhl TML-Interaction-Small mIoU skóre 29,4. GPT-realtime-2.0 skóroval prakticky nulu.

Není to tak nové, jak to vypadá

Výzkumník Sean Goedecke ve své analýze upozorňuje, že full duplex hlasové modely existují už delší dobu. Moshi od francouzské laboratoře Kyutai, PersonaPlex od Nvidie nebo Nemotron-VoiceChat pracují na stejném principu mikrotahů. Thinking Machines v tomto ohledu nic nevynalezl.

Co je ale jiné, je měřítko. TML-Interaction-Small má přibližně čtyřicetinásobek celkových parametrů oproti Moshi a zhruba dvojnásobek aktivních parametrů. A přidává video. Žádný z dosavadních full duplex modelů video nepodporuje, pravděpodobně proto, že na to jednoduše nestačily. Tohle je podle Goedecka skutečný technický přínos: plně duplexní model v měřítku a s vizuálním vstupem.

Přidání pozadního „chytřejšího" modelu pak sice zlepšuje výsledky na benchmarcích, ale zároveň otevírá otázky. Bude interaction model dostatečně chytrý na to, aby věděl, kdy úkol přehodit? Nepůsobí odpovědi trhaně, když výsledky z pozadí přicházejí se zpožděním? To se ukáže až ve skutečném provozu.

Dostupnost

Zatím to nikdo nevyzkouší. Thinking Machines ohlásil omezený výzkumný přístup v horizontu několika měsíců a širší spuštění plánuje na konec letošního roku. Nejde tedy o produkt, ale o výzkumnou ukázku s konkrétními čísly a demonstracemi.

Firma vznikla v roce 2025 poté, co Mira Murati odešla z OpenAI. Od té doby přilákala řadu výzkumníků z OpenAI, Mety a Anthropicu a uzavřela dohody o výpočetní infrastruktuře s Google Cloudem a Nvidií. Aktuální valuace se podle dostupných zpráv pohybuje okolo 12 miliard dolarů.

Zdroje: techcrunch.com a jawlah.co

Kategorie: AI

Komentáře

0

Chcete se zapojit do diskuze?

Buďte ve spojení s komunitou a získejte přístup k exkluzivnímu obsahu.

Zatím žádné komentáře. Buďte první!

Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Chyby v Google AI Overviews, kterých jsou miliony a trvají už dva roky Chyby v Google AI Overviews, kterých jsou miliony a trvají už dva roky
V květnu 2024 zapnul Google funkci, která od základu změnila, jak vypadá výsledek vyhledávání. AI Overviews, tedy shrnutí psaná umělou inteligencí, se...
5 min čtení
26. 6. 2026
Dokument Evropa 2031: děsivá vize AI budoucnosti, kterou si v Bruselu předávají z ruky do ruky Dokument Evropa 2031: děsivá vize AI budoucnosti, kterou si v Bruselu předávají z ruky do ruky
Je rok 2031 a Evropa stojí před třemi mizernými možnostmi. Stát se americkým protektorátem. Předat budoucnost Číně. Nebo pomalu vyschnout v izolaci. J...
8 min čtení
26. 6. 2026
Šéf Claude Code o smyčkách v AI: proč vývojáři přestávají psát prompty a začínají navrhovat autonomní cykly Šéf Claude Code o smyčkách v AI: proč vývojáři přestávají psát prompty a začínají navrhovat autonomní cykly
Boris Cherny, šéf Claude Code od Anthropiku, se na konferenci @Scale od Mety postavil před plný sál inženýrů a hned první otázka z publika ho zastavil...
3 min čtení
25. 6. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.