Stávalo se vám někdy, že jste hlasovému asistentovi skočili do řeči a on celý zatuhl? OpenAI s tím chce skoncovat. Firma připravuje nový hlasový model s pracovním označením GPT-Bidi-1 a podle všeho jde o největší vylepšení hlasového režimu ChatGPT za poslední měsíce.
Zkratka odkazuje na obousměrnou, takzvanou bidirekcionální architekturu, na které OpenAI pracuje už od začátku letošního roku. Model je postavený tak, aby zvládl naslouchat a mluvit současně. Když ho přerušíte uprostřed věty, nezamrzne. Místo toho přijme vaši poznámku a plynule se přizpůsobí, takže rozhovor připomíná spíš mluvení se člověkem než s automatem, který čeká, až dořeknete.
Stopy po novém modelu se teď objevují napříč webovou i mobilní verzí. To bývá poměrně spolehlivý signál, že se chystá nasazení pro běžné uživatele. Samotný název se ale ještě může před spuštěním změnit, takže s "GPT-Bidi-1" zatím opatrně.
OpenAI nechala vzniknout pořádnou mezeru. Zatímco textové modely vyběhly dopředu až ke generaci GPT-5.5, hlas zůstával na starší zvukové vrstvě. Mluvené rozhovory tak byly o krok pozadu za tím, co stejný asistent zvládal v psaní. A to firmě vadí. Sází totiž na to, že právě řeč, ne psaní, se stane hlavní cestou, jak budou lidé k umělé inteligenci přistupovat. Na tom stojí i její plánovaný hardware zaměřený na zvuk a hlasové nástroje pro podporu. GPT-Bidi-1 má tuhle mezeru zacelit. Slibuje hladší konverzace a k tomu výrazný skok v uvažování.
Jak bude funkce vypadat v praxi? Obrysy se začínají rýsovat. Uživatelé ChatGPT si nejspíš zachovají dnešní uspořádání. Budou přepínat mezi novým režimem Bidi (Latest) a současným pokročilým hlasovým režimem, takže nikoho nikam nepřesunou násilím.
Nejzajímavější je volba úrovní inteligence. OpenAI nabídne tři: vysokou, střední a okamžitou. Kopíruje tím odstupňování, které už zná textová strana, a nechává lidi vyměnit rychlost za hloubku podle toho, co zrovna potřebují. Spěcháte na rychlou odpověď? Sáhnete po okamžité. Chcete, aby si model dal s úvahou na čas? Zvolíte vysokou.
Že na redesignu někdo pracuje, naznačuje i jedna nedávná drobnost. Hlasovou bublinu jde nově přetáhnout doprostřed obrazovky. Vypadá to jako první kousek stejné skládačky. Kdy přesně se toho dočkáme, zatím jisté není. Jestli to vypukne tenhle týden, nebo později, se nedá říct. Základy se ale očividně pokládají.
Zdroje: testingcatalog.com a thewincentral.com
