Blog /
AI /
Alibaba ukázala Qwen3.5-Omni. Umí toho hodně na to aby otřásla žebříčky modelů!

Alibaba ukázala Qwen3.5-Omni. Umí toho hodně na to aby otřásla žebříčky modelů!

Ondřej Barták
Ondřej Barták
podnikatel a programátor
1. 4. 2026
5 minut čtení
Poslechněte si článek
Audio verze článku
Alibaba ukázala Qwen3.5-Omni. Umí toho hodně na to aby otřásla žebříčky modelů!

    Alibaba Cloud představila něco, co si zaslouží pozornost. Qwen3.5-Omni je jejich nejnovější jazykový model a tentokrát nejde jen o text. Tenhle systém zpracovává obraz, zvuk, video i text zároveň, v jednom výpočetním proudu. Žádné lepení externích modulů dohromady, žádné přepisy zvuku stranou. Všechno běží pod jednou střechou.

    A aby toho nebylo málo, Alibaba celý model uvolnila pod otevřenou licencí Apache 2.0. To znamená, že si ho může kdokoliv stáhnout, upravit a provozovat na vlastním hardwaru. Přesně tohle dělá z Qwen3.5-Omni tak zajímavý kousek.

    Architektura Thinker-Talker

    Srdcem modelu je dvousložková architektura, které tým říká Thinker-Talker. Modul Thinker vnímá okolí. Přijímá obrázky přes vizuální kodér, zvuk tokenizuje speciálním audio transformerem a celé to drží pohromadě díky časově orientovanému pozičnímu kódování (TMRoPE), které synchronizuje různé typy vstupů.

    Modul Talker pak z těchto reprezentací generuje odpovědi, a to i hlasem v reálném čase. Celé to běží proudově, takže model nemusí čekat, až zpracuje kompletní vstup. Reaguje průběžně.

    Pod kapotou pracuje hybridní Mixture-of-Experts (MoE) mechanismus. Z celkových 397 miliard parametrů se při jednom dotazu aktivuje jen asi 17 miliard. Představte si to jako obrovský tým specialistů, z nichž vždy pracují jen ti, které úkol zrovna potřebuje. Výsledek? Výkon srovnatelný s monolitickými giganty, ale za zlomek výpočetních nákladů.

    Lepší výsledky než konkurence

    Qwen3.5-Omni-Plus dosáhl nejlepších výsledků ve 215 audio a audiovizuálních benchmarcích. V testu DailyOmni získal 84,6 bodu oproti 82,7 u Gemini 3.1 Pro. V rozpoznávání řeči na datasetu Librispeech dosáhl chybovosti pouhých 1,11 %, zatímco Gemini má 3,36 %.

    V testu IFBench, který měří schopnost přesně plnit složité instrukce, verze Qwen3.5-397B dosáhla 76,5 % a překonala GPT-5 High se 73,1 %. V benchmarku MMLU-Pro, zaměřeném na hloubkovou expertízu, sice GPT-5 zatím vede s 87,1 %, ale Qwen mu s 86,3 % dýchá na záda.

    Co ale manažery zajímá víc než benchmarky? Cena. API volání stojí méně než 0,11 dolaru za milion tokenů. To je zhruba desetina toho, co si účtuje konkurence. Při latenci prvního paketu kolem 234 milisekund navíc model odpovídá tak rychle, že konverzace s ním připomíná běžný rozhovor.

    Audiovizuální výsledky
    Audiovizuální výsledky.

    Čeština, která konečně nezní roboticky

    Jedním z největších skoků je jazyková podpora. Model rozpoznává řeč ve 113 jazycích a dialektech a dokáže generovat hlas v 36 jazycích. Čeština patří mezi podporované jazyky, a to i na úrovni syntézy řeči.

    Za přirozeností hlasu stojí technologie ARIA (Adaptive Rate Interleave Alignment), která dynamicky zarovnává textové a hlasové jednotky. Řeší problémy, které trápily starší modely: polykání koncovek, špatné skloňování číslovek nebo nepřirozené pauzy. Skóre přirozenosti hlasu (UTMOS) dosahuje 4,16 z 5, což se blíží lidskému projevu.

    Zajímavá je i funkce sémantického přerušení. Když modelu skočíte do řeči, okamžitě ztichne a reaguje na váš nový podnět. Ignoruje přitom hluk v pozadí i výplňková slova. Kdo někdy zkoušel mluvit s hlasovým asistentem na rušné ulici, ocení to.

    Vibe Coding: ukážeš, řekneš a dostaneš kód

    Jedna z nejpůsobivějších ukázek? Takzvaný Audio-Visual Vibe Coding. Namíříte kameru na papírový náčrtek rozhraní, hlasem popíšete, co má aplikace dělat, a model vygeneruje funkční komponenty v Reactu nebo HTML. Prostě mu to ukážete a řeknete, co chcete. On to napíše.

    Model přitom zvládne zpracovat přes 10 hodin audia nebo 400 sekund videa ve vysokém rozlišení v jednom kontextovém okně o délce 256 tisíc tokenů. To otevírá možnosti pro analýzu celých porad, přednášek nebo průmyslových videozáznamů bez ztráty kontextu.

    Otevřený model

    Uvolnění pod licencí Apache 2.0 je pro firmy, které pracují s citlivými daty (zdravotnictví, finance, státní správa), možnost provozovat model na vlastních serverech bez odesílání informací kamkoliv ven. To přímo řeší požadavky evropských pravidel pro ochranu dat.

    Menší varianty modelu (třeba 35B parametrů) přitom vyžadují jen grafickou kartu s 24 GB paměti. S technikou FOMOE (Fast Opportunistic MoE) a inteligentním načítáním expertů z NVMe disků jde dokonce spustit i plnou verzi s 397 miliardami parametrů na běžné pracovní stanici. Dosáhnete rychlosti kolem 9 tokenů za sekundu, což pro firemního chatbota bohatě stačí.

    Tři verze modelu

    Model existuje ve třech velikostech: Plus, Flash a Light. Plus je vlajková loď pro maximální přesnost, Flash nabízí nejlepší poměr výkonu a rychlosti, Light se hodí pro nasazení s omezenými prostředky. Všechny podporují kontextové okno 256 tisíc tokenů.

    Přistupovat k němu můžete přes offline API (dávkové zpracování, dlouhé dokumenty, detailní popisky videí) nebo Realtime API (živá interakce, hlasový asistent, volání funkcí a vyhledávání na webu). K dispozici je i přes Qwen Chat a Alibaba Cloud Model Studio.

    Kdo se zajímá o kyberbezpečnost, toho potěší, že komunita už vytvořila i modifikované varianty bez bezpečnostních filtrů, vhodné třeba pro forenzní analýzu malwaru v izolovaném prostředí. Model si prostě žije vlastním životem a vývojáři z celého světa si ho přizpůsobují svým potřebám.

    Kategorie: AI
    Líbil se vám tento článek?
    Objevte další zajímavé příspěvky na blogu
    Zpět na blog
    Editee Dashboard

    Tvořte 10x rychleji na pár kliknutí s editee AI

    Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

    Související příspěvky

    AI vám dává za pravdu, i když ji nemáte. A to je problém! AI vám dává za pravdu, i když ji nemáte. A to je problém!
    Pohádáte se s partnerem. Jste naštvaní, otevřete ChatGPT a popíšete mu situaci. A on odpoví: „Máš úplnou pravdu, tvoje reakce byla naprosto oprávněn...
    4 min čtení
    1. 4. 2026
    Co skutečně stálo za ukončením video generatoru Sora? Co skutečně stálo za ukončením video generatoru Sora?
    Sam Altman dorazil začátkem března do Los Angeles na oscarový večírek Vanity Fair. Nálada byla skvělá, obchody běžely. OpenAI mělo na dosah licenční...
    4 min čtení
    1. 4. 2026
    DeepSeek zkolaboval na 7 hodin: čínský chatbot zažil nejdelší výpadek ve své historii DeepSeek zkolaboval na 7 hodin: čínský chatbot zažil nejdelší výpadek ve své historii
    Bylo krátce před desátou večer čínského času, když se na sociálních sítích začaly množit první stížnosti. DeepSeek, čínský chatbot s umělou intelige...
    4 min čtení
    1. 4. 2026
    Cestování

    USA

    Texas
    Podnikání Podnikání v USA
    Přihlaste se k odběru našeho newsletteru
    Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.