Zkuste si vzpomenout na poslední rozhovor s hlasovým asistentem. Bylo to přirozené? Nebo jste čekali, až vás přeruší v půli věty, odpoví s půlvteřinovým zpožděním a celá výměna působila spíš jako telefonát přes satelit ze 90. let? Google se rozhodl s tím skoncovat. V března spustil Gemini 3.1 Flash Live, model, který má hlasovou komunikaci s umělou inteligencí posunout tam, kde by měla být od začátku.
Novinky v nové verzi
Nestačí říct, že je model "lepší". Pojďme na konkrétní věci. Gemini 3.1 Flash Live dosáhl skóre 90,8 % na benchmarku ComplexFuncBench Audio, který testuje složité vícekrokové příkazy v reálném prostředí. To je výrazný skok oproti předchozí generaci. Na Scale AI's Audio MultiChallenge pak model s aktivním "přemýšlením" dosáhl 36,1 %, přičemž benchmark záměrně simuluje přerušení a váhání typická pro skutečné rozhovory.
Ale čísla jsou jen část celého obrázku. Podstatné je, co to znamená v praxi. Model teď lépe rozlišuje váš hlas od hluku televize v pozadí nebo provozu za oknem. Drží se zadaných instrukcí, i když konverzace odbočí jinam. A co je možná nejdůležitější, rozumí tónu, tempu a důrazu řeči způsobem, který předchozí verze prostě neuměly.
Google zpřístupnil model přes Gemini Live API v Google AI Studiu, a vývojáři na to čekali. Stačí pár řádků kódu v Pythonu a máte základ hlasového agenta, který reaguje v reálném čase. Model podporuje více než 90 jazyků, takže globální nasazení není problém.
Reálné příklady použití jsou přesvědčivé. Nástroj Stitch od Googlu teď umožňuje navrhovat uživatelská rozhraní hlasem, přičemž agent "vidí" plátno a dává zpětnou vazbu. Aplikace Ato, hlasový společník pro starší uživatele, využívá vícejazyčné schopnosti modelu k tomu, aby každodenní rozhovory působily jako skutečné lidské spojení. A herní studio Weekend zabudovalo model do svého RPG titulu Wit's End, kde hlasový Průvodce hrou mluví s teatrálním šarmem, který dřív nešel naprogramovat.
Verizon, The Home Depot i LiveKit model otestovaly ve svých provozech a zpětná vazba je jednoznačná: přirozený průběh konverzace je konečně tam, kde má být.
Gemini 3.1 Flash Image Preview: AI, která vidí a upravuje
Paralelně s hlasovým modelem Google vydal také Gemini 3.1 Flash Image Preview, model pro generování a úpravu obrázků. Cloudová architekta Lynn Langit, která ho testovala v rámci předčasného přístupu, popsala výsledky jako architektonický milník.
Langit zadala modelu jednoduchý příkaz: "Odstraň celý stůl a veškeré jídlo. Jsem uprostřed, odstraň mi klobouk. Oblékni mě do smaragdově zelených šatů." Výsledek? Model přesně splnil každý dílčí pokyn, zachoval identitu osob na fotografii a přenesl celou skupinu do zcela jiného vizuálního stylu. Bez Photoshopu, bez grafika, bez hodiny práce.
Schopnost modelu zpracovat složité vícekrokové instrukce při zachování integrity subjektů je přesně to, co odlišuje skutečně použitelný nástroj od hračky. Langit to testovala i na skupinových fotografiích s více lidmi, různým osvětlením a složitým pozadím. Model si poradil.
Všechny obrázky generované Googlem navíc obsahují neviditelný vodoznak SynthID, který lze ověřit přes Gemini. Stejný přístup Google aplikuje i na audio výstupy z Flash Live modelu. Ochrana před dezinformacemi je tedy zabudovaná přímo do modelu, ne přidaná dodatečně.
Gemini Live a Search Live: AI pro každého
Gemini 3.1 Flash Live není jen pro vývojáře. Model pohání Gemini Live a nově také Search Live, který se tento týden rozšířil do více než 200 zemí a území. Uživatelé mohou vést vícemodální konverzace v reálném čase ve svém rodném jazyce.
Gemini Live s novým modelem reaguje rychleji a dokáže sledovat vlákno konverzace dvakrát déle než předchozí verze. Takže pokud přemýšlíte nahlas a skáčete od tématu k tématu, asistent vás neztrácí. To je změna, kterou pocítíte při prvním delším rozhovoru.
Google tím ukazuje, že hlasová umělá inteligence přestává být prémiovou funkcí pro technologické nadšence a stává se nástrojem, který má smysl používat každý den. A upřímně? Po prvním poslechu ukázek z nového modelu je těžké se vrátit k tomu, co bylo dřív.
