Vrátit se na blog

Blog /

AI /

Alibaba představila model Qwen3-Max-Thinking, který šlape na paty velkým modelům

Ondřej Barták

podnikatel a programátor

3. 2. 2026

4 minut čtení

Poslechněte si článek

Audio verze článku

Tým Qwen od společnosti Alibaba Cloud odhalil Qwen3-Max-Thinking, uzavřený jazykový model zaměřený na složité uvažování, který v řadě benchmarků překonává přední modely jako GPT-5.2-Thinking, Claude-Opus-4.5 a Gemini 3 Pro. Model kombinuje masivní parametry s pokročilými technikami strojového učení a nabízí vývojářům cenově dostupnou alternativu k západním řešením.

Architektura založená na škálování v testovacím čase

Klíčovou inovací modelu Qwen3-Max-Thinking je technika nazvaná "test-time scaling" (škálování v testovacím čase). Na rozdíl od standardních metod, kdy model generuje tokeny lineárně, využívá Qwen3 takzvaný "heavy mode" (těžký režim), který umožňuje modelu vyměnit výpočetní výkon za inteligenci. Místo naivního přístupu "best-of-N sampling", kdy model vygeneruje například 100 odpovědí a vybere tu nejlepší, používá Qwen3-Max-Thinking strategii kumulativních zkušeností s více koly. Tento přístup napodobuje lidské řešení problémů. Model využívá proprietární mechanismus "take-experience" k destilaci poznatků z předchozích kroků uvažování, což mu umožňuje identifikovat slepé uličky a přesměrovat výpočetní výkon na nevyřešené nejasnosti.

Výsledky jsou hmatatelné. Na benchmarku GPQA (vědecké otázky na úrovni doktorandů) se skóre zlepšilo z 90,3 na 92,8. Na LiveCodeBench v6 vzrostl výkon z 88,0 na 91,4, a to vše bez proporcionálního nárůstu nákladů na tokeny.

Adaptivní použití nástrojů pro praktické aplikace

Qwen3-Max-Thinking překlenuje propast mezi čistým "myšlením" a praktickým využitím tím, že integruje tři nástroje jako prvotřídní schopnosti: vyhledávání na webu, paměť a interpret kódu. Model autonomně vybírá správný nástroj pro daný úkol bez manuálního zadávání uživatelem. V režimu "Thinking Mode" může model tyto nástroje používat současně. Tato schopnost je kritická pro podnikové aplikace, kde model může potřebovat ověřit fakt (vyhledávání), vypočítat projekci (interpret kódu) a následně uvažovat o strategických důsledcích (myšlení) - vše v jednom kroku.

Tým Qwen empiricky poznamenává, že tato kombinace "efektivně zmírňuje halucinace", protože model může své uvažování zakládat na ověřitelných externích datech místo spoléhání se pouze na své trénovací váhy.

Tabulka benchmarků se skóre: GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro, DeepSeek V3.2, Qwen3-Max-Thinking.

Výsledky benchmarků

Na 19 veřejných benchmarcích se Qwen3-Max-Thinking umístil na stejné nebo vyšší úrovni jako GPT-5.2-Thinking, Claude-Opus-4.5 a Gemini 3 Pro. V testu znalostí dosáhl model 85,7 na MMLU-Pro, 92,8 na MMLU-Redux a 93,7 na C-Eval, kde vedl skupinu v hodnocení čínského jazyka. Pro náročné uvažování zaznamenal 87,4 na GPQA, 98,0 na HMMT Feb 25, 94,7 na HMMT Nov 25 a 83,9 na IMOAnswerBench, což ho řadí do nejvyšší úrovně současných matematických a vědeckých modelů.

Nejvýznamnější signál pro vývojáře představuje benchmark "Humanity's Last Exam" (HLE) - poslední zkouška lidstva - který měří výkon na 3 000 otázkách na úrovni postgraduálního studia napříč matematikou, vědou, informatiku, humanitními obory a inženýrstvím. Qwen3-Max-Thinking vybavený nástroji pro vyhledávání na webu dosáhl skóre 49,8, čímž porazil Gemini 3 Pro (45,8) i GPT-5.2-Thinking (45,5).

V kódovacích úkolech model také vyniká. Na Arena-Hard v2 dosáhl skóre 90,2, čímž výrazně předstihl konkurenty jako Claude-Opus-4.5 (76,7).

Cenově dostupná alternativa pro vývojáře

Alibaba Cloud umístil model Qwen3-Max-Thinking jako prémiovou, ale dostupnou nabídku. Ceny jsou následující:

Vstup: 30 Kč za 1 milion tokenů (pro standardní kontexty ≤ 32k)
Výstup: 150 Kč za 1 milion tokenů

Tato cenová struktura je agresivní a podkopává mnoho starších vlajkových modelů při nabídce špičkového výkonu. Pro srovnání, GPT-5.2 stojí přibližně 44 Kč za vstup a 350 Kč za výstup na milion tokenů, zatímco Claude Opus 4.5 účtuje 125 Kč za vstup a 625 Kč za výstup.

Vývojáři by měli poznamenat granulární ceny pro nové agentní schopnosti. Alibaba odděluje náklady na "myšlení" (tokeny) od nákladů na "činnost" (použití nástrojů):

Agent Search Strategy: Standardní i pokročilá strategie jsou oceněny na 250 Kč za 1 000 volání
Web Extractor: Zdarma (časově omezená nabídka)
Code Interpreter: Zdarma (časově omezená nabídka)

Kompatibilita s vývojářským ekosystémem

Alibaba Cloud zajistil, že Qwen3-Max-Thinking je připraven k okamžité integraci. API podporuje standardní formát OpenAI, což týmům umožňuje přepnout modely pouhým změněním base_url a názvu model. V chytrém tahu k zachycení trhu s kódováním API také podporuje protokol Anthropic, což činí Qwen3-Max-Thinking kompatibilní s Claude Code, populárním prostředím pro agentní kódování.

Model je nyní dostupný v Qwen Chat a prostřednictvím Alibaba Cloud Model Studio s HTTP API kompatibilním s OpenAI. Vývojáři mohou začít experimentovat s modelem po registraci účtu Alibaba Cloud a vytvoření API klíče.

Zdroje: venturebeat.com a marktechpost.com

Kategorie: AI