Blog /
AI /
Konec robotických hlasů je zde, Google spustil Gemini 3.1 Flash

Konec robotických hlasů je zde, Google spustil Gemini 3.1 Flash

Ondřej Barták
Ondřej Barták
podnikatel a programátor
30. 3. 2026
4 minut čtení
Poslechněte si článek
Audio verze článku
Konec robotických hlasů je zde, Google spustil Gemini 3.1 Flash

    Zkuste si vzpomenout na poslední rozhovor s hlasovým asistentem. Bylo to přirozené? Nebo jste čekali, až vás přeruší v půli věty, odpoví s půlvteřinovým zpožděním a celá výměna působila spíš jako telefonát přes satelit ze 90. let? Google se rozhodl s tím skoncovat. V března spustil Gemini 3.1 Flash Live, model, který má hlasovou komunikaci s umělou inteligencí posunout tam, kde by měla být od začátku.

    Novinky v nové verzi

    Nestačí říct, že je model "lepší". Pojďme na konkrétní věci. Gemini 3.1 Flash Live dosáhl skóre 90,8 % na benchmarku ComplexFuncBench Audio, který testuje složité vícekrokové příkazy v reálném prostředí. To je výrazný skok oproti předchozí generaci. Na Scale AI's Audio MultiChallenge pak model s aktivním "přemýšlením" dosáhl 36,1 %, přičemž benchmark záměrně simuluje přerušení a váhání typická pro skutečné rozhovory.

    Ale čísla jsou jen část celého obrázku. Podstatné je, co to znamená v praxi. Model teď lépe rozlišuje váš hlas od hluku televize v pozadí nebo provozu za oknem. Drží se zadaných instrukcí, i když konverzace odbočí jinam. A co je možná nejdůležitější, rozumí tónu, tempu a důrazu řeči způsobem, který předchozí verze prostě neuměly.

    Výsledky zvukové MultiChallenge.
    Výsledky zvukové MultiChallenge.

    Google zpřístupnil model přes Gemini Live API v Google AI Studiu, a vývojáři na to čekali. Stačí pár řádků kódu v Pythonu a máte základ hlasového agenta, který reaguje v reálném čase. Model podporuje více než 90 jazyků, takže globální nasazení není problém.

    Reálné příklady použití jsou přesvědčivé. Nástroj Stitch od Googlu teď umožňuje navrhovat uživatelská rozhraní hlasem, přičemž agent "vidí" plátno a dává zpětnou vazbu. Aplikace Ato, hlasový společník pro starší uživatele, využívá vícejazyčné schopnosti modelu k tomu, aby každodenní rozhovory působily jako skutečné lidské spojení. A herní studio Weekend zabudovalo model do svého RPG titulu Wit's End, kde hlasový Průvodce hrou mluví s teatrálním šarmem, který dřív nešel naprogramovat.

    Verizon, The Home Depot i LiveKit model otestovaly ve svých provozech a zpětná vazba je jednoznačná: přirozený průběh konverzace je konečně tam, kde má být.

    Gemini 3.1 Flash Image Preview: AI, která vidí a upravuje

    Paralelně s hlasovým modelem Google vydal také Gemini 3.1 Flash Image Preview, model pro generování a úpravu obrázků. Cloudová architekta Lynn Langit, která ho testovala v rámci předčasného přístupu, popsala výsledky jako architektonický milník.

    Langit zadala modelu jednoduchý příkaz: "Odstraň celý stůl a veškeré jídlo. Jsem uprostřed, odstraň mi klobouk. Oblékni mě do smaragdově zelených šatů." Výsledek? Model přesně splnil každý dílčí pokyn, zachoval identitu osob na fotografii a přenesl celou skupinu do zcela jiného vizuálního stylu. Bez Photoshopu, bez grafika, bez hodiny práce.

    Příklad použití Langit.
    Výsledek po zadání hlasového příkazu.

    Schopnost modelu zpracovat složité vícekrokové instrukce při zachování integrity subjektů je přesně to, co odlišuje skutečně použitelný nástroj od hračky. Langit to testovala i na skupinových fotografiích s více lidmi, různým osvětlením a složitým pozadím. Model si poradil.

    Všechny obrázky generované Googlem navíc obsahují neviditelný vodoznak SynthID, který lze ověřit přes Gemini. Stejný přístup Google aplikuje i na audio výstupy z Flash Live modelu. Ochrana před dezinformacemi je tedy zabudovaná přímo do modelu, ne přidaná dodatečně.

    Gemini Live a Search Live: AI pro každého

    Gemini 3.1 Flash Live není jen pro vývojáře. Model pohání Gemini Live a nově také Search Live, který se tento týden rozšířil do více než 200 zemí a území. Uživatelé mohou vést vícemodální konverzace v reálném čase ve svém rodném jazyce.

    Gemini Live s novým modelem reaguje rychleji a dokáže sledovat vlákno konverzace dvakrát déle než předchozí verze. Takže pokud přemýšlíte nahlas a skáčete od tématu k tématu, asistent vás neztrácí. To je změna, kterou pocítíte při prvním delším rozhovoru.

    Google tím ukazuje, že hlasová umělá inteligence přestává být prémiovou funkcí pro technologické nadšence a stává se nástrojem, který má smysl používat každý den. A upřímně? Po prvním poslechu ukázek z nového modelu je těžké se vrátit k tomu, co bylo dřív.

    Kategorie: AI
    Líbil se vám tento článek?
    Objevte další zajímavé příspěvky na blogu
    Zpět na blog
    Editee Dashboard

    Tvořte 10x rychleji na pár kliknutí s editee AI

    Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

    Související příspěvky

    Proč by měly firmy jako OpenAI platit evropským tvůrcům? Šéf Mistralu má jasno Proč by měly firmy jako OpenAI platit evropským tvůrcům? Šéf Mistralu má jasno
    Arthur Mensch, spoluzakladatel a šéf francouzské společnosti Mistral, hodil do ringu návrh, který v technologickém světě rozhodně nezůstal bez povši...
    3 min čtení
    30. 3. 2026
    Wikipedia zakázala umělou inteligenci: Dobrovolní editoři odhlasovali zákaz AI poměrem 40:2 Wikipedia zakázala umělou inteligenci: Dobrovolní editoři odhlasovali zákaz AI poměrem 40:2
    Bylo to jen otázkou času. Wikipedia, ta obrovská dobrovolnická encyklopedie s více než 7,1 miliony článků v anglické verzi, oficiálně zakázala použí...
    3 min čtení
    30. 3. 2026
    OpenAI zastavilo vývoj erotického ChatGPT OpenAI zastavilo vývoj erotického ChatGPT
    Loni v říjnu Sam Altman, šéf OpenAI, veřejně naznačil, že ChatGPT by mohl jednou nabídnout „dospělý režim" pro erotický obsah. Nápad to byl kontroverz...
    3 min čtení
    30. 3. 2026
    Cestování

    USA

    Texas
    Podnikání Podnikání v USA
    Přihlaste se k odběru našeho newsletteru
    Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.