ElevenLabs Eleven v3 je nejnovější a nejpokročilejší model pro převod textu na řeč, který společnost ElevenLabs oficiálně uvolnila pro všechny uživatele. Model, který byl dříve dostupný pouze v alfa verzi, nyní přináší výrazně vylepšenou stabilitu a přesnost při zpracování textu.
Pokročilý hlasový model Eleven v3
Eleven v3 představuje nejcitlivější AI hlasový model od ElevenLabs s mimořádnou emocionální hloubkou a bohatým podáním. Na rozdíl od předchozích modelů nabízí široký dynamický rozsah, který lze ovládat pomocí inline audio tagů přímo v textu. Model podporuje více než 70 jazyků, včetně češtiny, a umožňuje vytvářet přirozené dialogy mezi více mluvčími.
Klíčovou novinkou je režim dialogu (Dialogue Mode), který propojuje více hlasů do plynulé konverzace. Mluvčí sdílejí kontext a emoce, což vytváří přirozeně znějící dialogy, které připomínají skutečnou lidskou komunikaci.
Dramatické zlepšení přesnosti
Od alfa verze prošel Eleven v3 významnými vylepšeními. V testování uživatelé preferovali novou verzi v 72 % případů oproti předchozímu alfa vydání. Největší pokrok nastal v oblasti přesnosti zpracování čísel, symbolů a specializované notace napříč jazyky.
Celková chybovost klesla o 68 % – z původních 15,3 % na pouhých 4,9 %. Model nyní dokáže správně interpretovat kontext a rozhodnout, jak má text vyslovit. Například telefonní číslo "+49 170 9876543" dříve model četl jako "plus čtyřicet devět, sto sedmdesát, devět milionů..." místo správného čtení jednotlivých číslic.
Příklady konkrétních oprav zahrnují správné čtení měn (¥250,000 nyní jako "250,000 jenů" místo "25,000 jenů"), chemických vzorců (SO₂ jako "S O dva" místo zkomoleného "sulfur double") nebo sportovních výsledků (102-98 jako "sto dva ku devadesáti osmi" místo "sto dva minus devadesát osm").
Kontrola emocí a zvukových efektů
Eleven v3 umožňuje plnou kontrolu nad emocemi, směrováním a zvukovými efekty pomocí audio tagů. Uživatelé mohou do textu vkládat značky jako [slowly] (pomalu), [whispers] (šeptá), [chuckles] (chichotá se), [sad] (smutně) nebo [excited] (vzrušeně), které model interpretuje a aplikuje na výsledný hlas.
Model podporuje širokou škálu audio tagů, které jsou částečně závislé na hlasu a kontextu. Tato funkce vytváří ovladatelnou, expresivní řeč s vrstvami emocí, audio událostí a pohlcujících zvukových krajin.
Dostupnost
Eleven v3 je nyní obecně dostupný na všech platformách, včetně mobilních zařízení. Vývojáři mohou model využívat přes veřejné API, které podporuje jak standardní převod textu na řeč, tak exkluzivní funkci dialogů mezi více mluvčími. Model představuje výrazný pokrok oproti předchozímu Eleven v2, který podporoval pouze 29 jazyků a základní tagy jako pauzy. Eleven v3 nabízí kompletní škálu emocí, směrování a zvukových efektů spolu s podporou více mluvčích v dialogovém režimu.
