Každý, kdo někdy mluvil s hlasovým asistentem, zná ten moment. Domluvíte větu, nastane ticho, chvíle čekání a pak přijde odpověď. Celé to působí jako starý telefonát přes satelit. Thinking Machines Lab, startup Miry Murati, bývalé technické ředitelky OpenAI, oznámil, že chce tento způsob změnit.
Firma zveřejnila výzkumný materiál o přístupu, který nazývá „interaction models". Jde o modely, jež zpracovávají vstup a generují odpověď současně, nikoli postupně. Technicky se tomuto principu říká full duplex a v lidské řeči to znamená, že vás umělá inteligence nemusí nechat domluvit, aby mohla začít reagovat.
Dnešní modely fungují jinak. Uživatel promluví a model naslouchá. Model začne odpovídat, uživatel mlčí. Tento způsob komunikace je funkční, ale umělý. Žádný skutečný rozhovor takhle nefunguje. Lidé si skáčou do řeči, opravují se navzájem uprostřed věty, reagují na výraz v obličeji druhého ještě dřív, než padne slovo. AI tohle zatím nedokázala.
Model Interaction
Model nepracuje s celými větami nebo odstavci jako se vstupem a výstupem, ale s takzvanými mikrotahy délky 200 milisekund. Každých 200 ms zpracuje kousek vstupu a zároveň vygeneruje kousek výstupu. Pro uživatele to vypadá jako plynulý rozhovor, pro model je to neustálé střídání poslechu a mluvení v drobných úsecích.
Aby to celé fungovalo dostatečně rychle, tým přepracoval i způsob, jakým model přijímá zvuk a obraz. Místo velkých předtrénovaných kodérů, jaké používá většina multimodálních modelů, vsadili na lehký systém zpracování přímo při tréninku. Zvuk přichází jako dMel spektrogramy, video jako 40×40 pixelové záplaty. Vše se trénuje od začátku jako jeden celek.
Pak je tu ještě jeden trik. Protože rychlý model nemůže být zároveň chytrý tak jako pomalejší systémy pro hluboké přemýšlení, Thinking Machines přidal do systému druhý, pomalejší model pracující na pozadí. Interaction model vede konverzaci, ale jakmile narazí na složitý úkol, přehodí ho na model v pozadí. Ten pracuje asynchronně a výsledky předává zpět do probíhajícího rozhovoru. Uživatel mezitím nepřestane mluvit s asistentem, jen se mu průběžně přidávají chytřejší odpovědi.
Výsledkem je model pojmenovaný TML-Interaction-Small. Latence, tedy prodleva od konce řeči uživatele po začátek odpovědi modelu, činí 0,40 sekundy. Pro srovnání: GPT-realtime-2.0 v minimální konfiguraci potřebuje 1,18 sekundy, Gemini-3.1-flash-live 0,57 sekundy. Přirozený lidský rozhovor se pohybuje přibližně ve stejném rozsahu jako výsledek TML.
Na benchmarku FD-bench V1.5, který měří kvalitu interakce v situacích jako přerušení uživatelem, souběžná řeč nebo reakce na vizuální podněty, dosáhl TML-Interaction-Small skóre 77,8, zatímco GPT-realtime-2.0 pouze 46,8 a Gemini-3.1-flash-live 45,5. To je výrazný rozdíl. Model má také celkem 276 miliard parametrů, přičemž aktivně využívá 12 miliard. Jde o architekturu MoE (mixture of experts), která aktivuje jen část parametrů pro každý vstup.
Demonstrace ukazují věci, které dosavadní hlasoví asistenti vůbec neumí. Model průběžně sleduje video a bez vyzvání upozorní, když si člověk u počítače sedne zkřívenými zády. Umí živě překládat, přičemž mluví zároveň s uživatelem, nikoli po něm. Počítá kliky při cvičení přímo z videa. Spustí vyhledávání na webu uprostřed rozhovoru a výsledky přirozeně zaplete do odpovědi.
Stojí za tím schopnost reagovat na vizuální podněty bez slovní výzvy. Dosavadní systémy, včetně GPT-realtime-2.0, čekají na zvukový signál. Pokud signál nepřijde, tak mlčí. Na interním benchmarku Charades, kde má model odhadnout začátek a konec akce ve videu pouze na základě vizuálních signálů, dosáhl TML-Interaction-Small mIoU skóre 29,4. GPT-realtime-2.0 skóroval prakticky nulu.
Není to tak nové, jak to vypadá
Výzkumník Sean Goedecke ve své analýze upozorňuje, že full duplex hlasové modely existují už delší dobu. Moshi od francouzské laboratoře Kyutai, PersonaPlex od Nvidie nebo Nemotron-VoiceChat pracují na stejném principu mikrotahů. Thinking Machines v tomto ohledu nic nevynalezl.
Co je ale jiné, je měřítko. TML-Interaction-Small má přibližně čtyřicetinásobek celkových parametrů oproti Moshi a zhruba dvojnásobek aktivních parametrů. A přidává video. Žádný z dosavadních full duplex modelů video nepodporuje, pravděpodobně proto, že na to jednoduše nestačily. Tohle je podle Goedecka skutečný technický přínos: plně duplexní model v měřítku a s vizuálním vstupem.
Přidání pozadního „chytřejšího" modelu pak sice zlepšuje výsledky na benchmarcích, ale zároveň otevírá otázky. Bude interaction model dostatečně chytrý na to, aby věděl, kdy úkol přehodit? Nepůsobí odpovědi trhaně, když výsledky z pozadí přicházejí se zpožděním? To se ukáže až ve skutečném provozu.
Dostupnost
Zatím to nikdo nevyzkouší. Thinking Machines ohlásil omezený výzkumný přístup v horizontu několika měsíců a širší spuštění plánuje na konec letošního roku. Nejde tedy o produkt, ale o výzkumnou ukázku s konkrétními čísly a demonstracemi.
Firma vznikla v roce 2025 poté, co Mira Murati odešla z OpenAI. Od té doby přilákala řadu výzkumníků z OpenAI, Mety a Anthropicu a uzavřela dohody o výpočetní infrastruktuře s Google Cloudem a Nvidií. Aktuální valuace se podle dostupných zpráv pohybuje okolo 12 miliard dolarů.
Zdroje: techcrunch.com a jawlah.co
