Blog /
AI /
Otevřený model od Alibaby zpracuje hodiny videa s přesností na 99,5 %

Otevřený model od Alibaby zpracuje hodiny videa s přesností na 99,5 %

Ondřej Barták
Ondřej Barták
podnikatel a programátor
4. 12. 2025
3 minut čtení
Otevřený model od Alibaby zpracuje hodiny videa s přesností na 99,5 %

Alibaba v září spustila model Qwen3-VL a teď zveřejnila podrobný technický report o tomto otevřeném multimodálním modelu. Tento systém vyniká v úkolech, kde řeší matematické problémy na základě obrázků, a dokáže prozkoumat hodiny videa. Zpracovává obrovské množství dat, například dvouhodinové video nebo stovky stránek dokumentů v kontextovém okně o velikosti 256 000 tokenů.

V testech typu "jehla v kupce sena" dosáhl největší model s 235 miliardami parametrů stoprocentní přesnosti při hledání jednotlivých snímků v třicetiminutových videích. I v dvouhodinových videích, které obsahují zhruba milion tokenů, zůstala přesnost na 99,5 %. Test funguje tak, že se do dlouhého videa náhodně vloží důležitý snímek s významem, a systém ho musí najít a prozkoumat.

Výsledky benchmarků

V publikovaných srovnáních často překonává Qwen3-VL-235B-A22B modely jako Gemini 2.5 Pro, OpenAI GPT-5 nebo Claude Opus 4.1, a to i když konkurenti používají pokročilé funkce na uvažování nebo vysoké rozpočty na myšlení. Vizuální matematické úkoly zvládá na výbornou: v testu MathVista dosáhl 85,8 %, což je víc než 81,3 % u GPT-5. V MathVision vedl s 74,6 %, před Gemini 2.5 Pro s 73,3 % a GPT-5 s 65,8 %.

Výsledky benchmarků a konkurence
Výsledky benchmarků a konkurence

Model se osvědčil i ve specializovaných testech. V DocVQA na porozumění dokumentům dosáhl 96,5 %, a v OCRBench na rozpoznávání textu získal 875 bodů. Podporuje 39 jazyků, což je skoro čtyřikrát víc než předchozí verze. V optickém rozpoznávání znaků (OCR) dosáhl přes 70 % přesnosti v 32 z těchto 39 jazyků.

Přesnost jazyků
Přesnost jazyků

Schopnosti v praxi

Alibaba tvrdí, že systém přináší novinky v úkolech s grafickými uživatelskými rozhraními (GUI). V testu ScreenSpot Pro na navigaci v grafických rozhraních dosáhl 61,8 % přesnosti. V AndroidWorld, kde musí samostatně ovládat aplikace pro Android, dosáhl Qwen3-VL-32B 63,7 %.

Zpracovává i složité vícestránkové PDF dokumenty. V MMLongBench-Doc na analýzu dlouhých dokumentů dosáhl 56,2 %. V benchmarku CharXiv na vědecké grafy získal 90,5 % v popisných úkolech a 66,2 % v otázkách vyžadujících složité uvažování.

Ne ve všem je ale na vrcholu. V komplexním testu MMMU-Pro dosáhl 69,3 %, což je méně než 78,4 % u GPT-5. Kompetitivní modely obvykle vedou ve videových otázkách a odpovědích. Qwen3-VL se tak jeví jako specialista na vizuální matematiku a dokumenty, ale v obecném uvažování zaostává.

Technické vylepšení pro lepší výkon

Technický report popisuje tři hlavní změny v architektuře. První je "interleaved MRoPE", která nahrazuje předchozí metodu pozicování. Místo seskupování matematických reprezentací podle dimenzí (čas, horizontální, vertikální) je teď rovnoměrně rozděluje do všech dostupných matematických oblastí. To pomáhá při dlouhých videích.

Druhá novinka je technologie DeepStack, která umožňuje modelu přístup k mezivýsledkům z vizuálního kodéru, nejen k finálnímu výstupu. Díky tomu má systém vizuální informace na různých úrovních detailů.

Třetí změna je textový systém časových značek, který nahrazuje složitý T-RoPE z Qwen2.5-VL. Místo přiřazování matematické časové pozice každému snímku videa teď systém vkládá jednoduché textové značky jako "<3.8 seconds>" přímo do vstupu. To zjednodušuje proces a zlepšuje chápání časových úkolů ve videích.

Trénink na obřím měřítku

Alibaba trénovala model ve čtyřech fázích na až 10 000 grafických procesorech (GPU). Nejdřív se naučil spojovat obrázky a text, pak prošel plným multimodálním tréninkem na zhruba jednom bilionu tokenů. Zdroje dat zahrnovaly webové scrapy, 3 miliony PDF z Common Crawl a přes 60 milionů úkolů ze STEM oblastí.

V pozdějších fázích tým postupně rozšiřoval kontextové okno z 8 000 na 32 000 a nakonec na 262 000 tokenů. Varianty "Thinking" dostaly speciální trénink na řetězce myšlenek, což jim umožňuje explicitně mapovat kroky uvažování pro lepší výsledky ve složitých problémech.

Otevřenost a dostupnost

Všechny modely Qwen3-VL vydané od září jsou dostupné pod licencí Apache 2.0 s otevřenými vahami na Hugging Face. Nabídka zahrnuje husté varianty od 2 miliard do 32 miliard parametrů, plus směs expertů: 30B-A3B a obří 235B-A22B.

Funkce jako extrakce snímků z dlouhých videí nejsou nové – Google Gemini 1.5 Pro to zvládal už na začátku roku 2024 – ale Qwen3-VL nabízí srovnatelný výkon v otevřeném balení. Předchozí Qwen2.5-VL je běžný ve výzkumu, takže nový model pravděpodobně posune otevřený vývoj dál.

Další zdroj: the-decoder.com

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Proč by měly firmy jako OpenAI platit evropským tvůrcům? Šéf Mistralu má jasno Proč by měly firmy jako OpenAI platit evropským tvůrcům? Šéf Mistralu má jasno
Arthur Mensch, spoluzakladatel a šéf francouzské společnosti Mistral, hodil do ringu návrh, který v technologickém světě rozhodně nezůstal bez povši...
3 min čtení
30. 3. 2026
Konec robotických hlasů je zde, Google spustil Gemini 3.1 Flash Konec robotických hlasů je zde, Google spustil Gemini 3.1 Flash
Zkuste si vzpomenout na poslední rozhovor s hlasovým asistentem. Bylo to přirozené? Nebo jste čekali, až vás přeruší v půli věty, odpoví s půlvteřin...
4 min čtení
30. 3. 2026
Wikipedia zakázala umělou inteligenci: Dobrovolní editoři odhlasovali zákaz AI poměrem 40:2 Wikipedia zakázala umělou inteligenci: Dobrovolní editoři odhlasovali zákaz AI poměrem 40:2
Bylo to jen otázkou času. Wikipedia, ta obrovská dobrovolnická encyklopedie s více než 7,1 miliony článků v anglické verzi, oficiálně zakázala použí...
3 min čtení
30. 3. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.