Microsoft vydal VibeVoice-1.5B: Nový otevřený model pro dlouhé konverzace

Ať už jste výzkumník v oblasti umělé inteligence nebo jen zvědavý nadšenec do technologií, model VibeVoice-1.5B od Microsoftu vás určitě zaujme. Tento otevřený model pro převod textu na řeč přináší inovace, které umožňují vytvářet dlouhé, přirozené konverzace s více mluvčími. Pojďme se podívat, co přesně umí, jak funguje a jak si stojí v porovnání s konkurencí.

Co přesně umí VibeVoice-1.5B?

VibeVoice-1.5B je navržený pro generování expresivního, dlouhého audio s více mluvčími, jako jsou podcasty nebo dialogy. Dokáže syntetizovat až 90 minut dlouhou řeč s až čtyřmi odlišnými mluvčími v jednom výstupu. To je velký skok oproti běžným modelům, které se obvykle omezují na jednoho nebo dva mluvčí. Model používá kontinuální tokenizéry řeči (akustický a sémantický) s ultra nízkou frekvencí 7,5 Hz, což zajišťuje vysokou věrnost zvuku při efektivním zpracování dlouhých sekvencí.

Základem je transformerový velký jazykový model (LLM) Qwen2.5-1.5B, který chápe textový kontext a tok dialogu. K tomu přidává difuzní hlavu pro generování detailů zvuku. Akustický tokenizér je založený na variantě σ-VAE s encoder-decoder strukturou, která dosahuje 3200násobného snížení vzorkování z 24 kHz vstupu. Každá část encoderu a decoderu má přibližně 340 milionů parametrů. Sémantický tokenizér kopíruje architekturu akustického, ale trénuje se na úloze automatického rozpoznávání řeči.

Model podporuje expresivní prvky, včetně spontánního zpěvu, a funguje především v angličtině a čínštině. Během inference potřebuje jen asi 7 GB paměti GPU, což ho činí dostupným i pro běžný hardwar. Trénink probíhal v etapách: nejprve samostatně tokenizéry, pak celý model s postupně rostoucí délkou sekvencí až na 65 536 tokenů. Celkově má model 2,7 miliardy parametrů a je uvolněný pod MIT licencí pro výzkumné účely.

Jak funguje v praxi a jaké jsou limity?

V praxi VibeVoice-1.5B exceluje v tvorbě přirozených konverzací, kde se mluvčí střídají. Používá difuzní proces s klasifikátor-free guidance pro lepší kvalitu. Model automaticky vkládá slyšitelnou poznámku „Tento segment byl generován AI“ do každého výstupu a přidává neviditelný vodoznak pro ověření původu, což pomáhá proti zneužití.

Ale ne všechno je dokonalé. Model se zaměřuje jen na řeč, takže negeneruje hudbu, zvukové efekty nebo překrývající se mluvu. Plně podporuje pouze angličtinu a čínštinu – jiné jazyky mohou vést k nesrozumitelným/nepřesným výsledkům. Není určený pro komerční použití, jako je hlasová impersonace bez souhlasu nebo šíření dezinformací. Rizika zahrnují potenciál pro deepfakes, proto Microsoft doporučuje zodpovědné použití a hlášení problémů na e-mail [email protected].

Porovnání s konkurencí: Kde VibeVoice vyniká?

V porovnání s konkurencí jako Whisper od OpenAI nebo ElevenLabs se VibeVoice-1.5B drží svého. Whisper je primárně model pro převod řeči na text (ASR), ne na syntézu, takže přímo nesoutěží – exceluje v transkripci v desítkách jazyků, ale negeneruje audio. VibeVoice naopak vede v délce výstupu (až 90 minut) a multi-speaker podpoře (až 4 mluvčí), což Whisper nemá.

Proti ElevenLabs, který je komerční TTS s podporou 29 jazyků a stovek hlasů, nabízí VibeVoice otevřenost (je open-source) a efektivitu na běžném hardwaru. ElevenLabs je silný v emotivní realističnosti a krátkých výstupech, ale omezuje se na kratší délky a je proprietární. VibeVoice přidává unikátní prvky jako zpěv a etické ochrany, jako vodoznaky, které ElevenLabs řeší vlastním klasifikátorem.

Další modely jako Deepgram nebo wav2vec 2.0 se zaměřují spíš na ASR, ne na TTS, a liší se v rychlosti či specializaci. VibeVoice-1.5B tak vyniká v otevřené, dlouhé syntéze s více mluvčími, ale zaostává v jazykové rozmanitosti oproti komerčním řešením. Celkově je to skvělý nástroj pro výzkum, který posouvá hranice toho, co TTS dokáže.

Pokud vás zajímá víc, podívejte se na technickou zprávu na arXiv nebo GitHubu repozitář microsoft/VibeVoice. Tento model ukazuje, jak se umělá inteligence blíží k přirozenému lidskému dialogu – a to všechno otevřeně a zodpovědně. Co na to říkáte vy?

Kategorie: AI