Blog /
AI /
Microsoft vydal VibeVoice-1.5B: Nový otevřený model pro dlouhé konverzace

Microsoft vydal VibeVoice-1.5B: Nový otevřený model pro dlouhé konverzace

Ondřej Barták
Ondřej Barták
podnikatel a programátor
27. 8. 2025
3 minut čtení
Microsoft vydal VibeVoice-1.5B: Nový otevřený model pro dlouhé konverzace

Microsoft vydal VibeVoice-1.5B: Nový otevřený model pro dlouhé konverzace

Ať už jste výzkumník v oblasti umělé inteligence nebo jen zvědavý nadšenec do technologií, model VibeVoice-1.5B od Microsoftu vás určitě zaujme. Tento otevřený model pro převod textu na řeč přináší inovace, které umožňují vytvářet dlouhé, přirozené konverzace s více mluvčími. Pojďme se podívat, co přesně umí, jak funguje a jak si stojí v porovnání s konkurencí.

Co přesně umí VibeVoice-1.5B?

VibeVoice-1.5B je navržený pro generování expresivního, dlouhého audio s více mluvčími, jako jsou podcasty nebo dialogy. Dokáže syntetizovat až 90 minut dlouhou řeč s až čtyřmi odlišnými mluvčími v jednom výstupu. To je velký skok oproti běžným modelům, které se obvykle omezují na jednoho nebo dva mluvčí. Model používá kontinuální tokenizéry řeči (akustický a sémantický) s ultra nízkou frekvencí 7,5 Hz, což zajišťuje vysokou věrnost zvuku při efektivním zpracování dlouhých sekvencí.

Základem je transformerový velký jazykový model (LLM) Qwen2.5-1.5B, který chápe textový kontext a tok dialogu. K tomu přidává difuzní hlavu pro generování detailů zvuku. Akustický tokenizér je založený na variantě σ-VAE s encoder-decoder strukturou, která dosahuje 3200násobného snížení vzorkování z 24 kHz vstupu. Každá část encoderu a decoderu má přibližně 340 milionů parametrů. Sémantický tokenizér kopíruje architekturu akustického, ale trénuje se na úloze automatického rozpoznávání řeči.

Model podporuje expresivní prvky, včetně spontánního zpěvu, a funguje především v angličtině a čínštině. Během inference potřebuje jen asi 7 GB paměti GPU, což ho činí dostupným i pro běžný hardwar. Trénink probíhal v etapách: nejprve samostatně tokenizéry, pak celý model s postupně rostoucí délkou sekvencí až na 65 536 tokenů. Celkově má model 2,7 miliardy parametrů a je uvolněný pod MIT licencí pro výzkumné účely.

Jak funguje v praxi a jaké jsou limity?

V praxi VibeVoice-1.5B exceluje v tvorbě přirozených konverzací, kde se mluvčí střídají. Používá difuzní proces s klasifikátor-free guidance pro lepší kvalitu. Model automaticky vkládá slyšitelnou poznámku „Tento segment byl generován AI“ do každého výstupu a přidává neviditelný vodoznak pro ověření původu, což pomáhá proti zneužití.

Ale ne všechno je dokonalé. Model se zaměřuje jen na řeč, takže negeneruje hudbu, zvukové efekty nebo překrývající se mluvu. Plně podporuje pouze angličtinu a čínštinu – jiné jazyky mohou vést k nesrozumitelným/nepřesným výsledkům. Není určený pro komerční použití, jako je hlasová impersonace bez souhlasu nebo šíření dezinformací. Rizika zahrnují potenciál pro deepfakes, proto Microsoft doporučuje zodpovědné použití a hlášení problémů na e-mail [email protected].

Porovnání s konkurencí: Kde VibeVoice vyniká?

V porovnání s konkurencí jako Whisper od OpenAI nebo ElevenLabs se VibeVoice-1.5B drží svého. Whisper je primárně model pro převod řeči na text (ASR), ne na syntézu, takže přímo nesoutěží – exceluje v transkripci v desítkách jazyků, ale negeneruje audio. VibeVoice naopak vede v délce výstupu (až 90 minut) a multi-speaker podpoře (až 4 mluvčí), což Whisper nemá.

Proti ElevenLabs, který je komerční TTS s podporou 29 jazyků a stovek hlasů, nabízí VibeVoice otevřenost (je open-source) a efektivitu na běžném hardwaru. ElevenLabs je silný v emotivní realističnosti a krátkých výstupech, ale omezuje se na kratší délky a je proprietární. VibeVoice přidává unikátní prvky jako zpěv a etické ochrany, jako vodoznaky, které ElevenLabs řeší vlastním klasifikátorem.

Další modely jako Deepgram nebo wav2vec 2.0 se zaměřují spíš na ASR, ne na TTS, a liší se v rychlosti či specializaci. VibeVoice-1.5B tak vyniká v otevřené, dlouhé syntéze s více mluvčími, ale zaostává v jazykové rozmanitosti oproti komerčním řešením. Celkově je to skvělý nástroj pro výzkum, který posouvá hranice toho, co TTS dokáže.

Pokud vás zajímá víc, podívejte se na technickou zprávu na arXiv nebo GitHubu repozitář microsoft/VibeVoice. Tento model ukazuje, jak se umělá inteligence blíží k přirozenému lidskému dialogu – a to všechno otevřeně a zodpovědně. Co na to říkáte vy?

Kategorie: AI

Komentáře

0

Chcete se zapojit do diskuze?

Buďte ve spojení s komunitou a získejte přístup k exkluzivnímu obsahu.

Zatím žádné komentáře. Buďte první!

Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Jižní Korea vydá až 880 miliard dolarů na paměťové čipy, datacentra a roboty Jižní Korea vydá až 880 miliard dolarů na paměťové čipy, datacentra a roboty
Soul to myslí vážně, tak vážně, že prezident Lee Jae-mjong oznámil plán investic za nejméně 880 miliard dolarů a vedle sebe měl šéfy dvou největších...
3 min čtení
30. 6. 2026
Anthropic do EU? Rakousko spustilo lobbing po amerických restrikcích Anthropic do EU? Rakousko spustilo lobbing po amerických restrikcích
Vídeň poslala do Bruselu návrh, který by ještě před pár týdny zněl skoro nemyslitelně. Rakouský státní tajemník pro digitalizaci Alexander Pröll vyzva...
3 min čtení
30. 6. 2026
Zuckerbergovy AI plány brzdí Google, ten Metě omezil přístup k modelu Gemini Zuckerbergovy AI plány brzdí Google, ten Metě omezil přístup k modelu Gemini
Co se stane, když i jedna z nejbohatších technologických firem světa narazí na to, že si nemůže koupit dost výpočetního výkonu? Přesně tohle teď zaž...
3 min čtení
30. 6. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.