Minulý týden se stalo něco zvláštního. Jeden z nejhektičtějších týdnů co do vydávání nových AI modelů, jaký si pamatuji, a OpenAI? Skoro mimo hru. Google vydal nový Gemini. Grok dostal upgrade. Anthropic vypustil Claude Sonnet 4.6. Čínský Qwen přišel s open-source modelem, který se opravdu blíží světové špičce. Laboratoře jedou na plné obrátky, ceny padají a rozdíl mezi "nejlepším modelem" a "levným modelem" se zmenšuje rychleji, než kdokoli čekal.
Pojďme si říct, co z toho skutečně stojí za pozornost.
Claude Sonnet 4.6: Skoro stejně dobrý a výrazně levnější
Tohle byl pro mě osobně největší zájem týdne. Kdo programuje s pomocí AI, ví, jak rychle se tokeny pálí. Jsou dny, kdy API poplatky přesáhnou i sto dolarů. Proto mě zaujalo, když se ukázalo, že Sonnet 4.6 dosahuje skoro stejných výsledků jako Opus 4.6, ale za zlomek ceny.
Na benchmarcích pro agentní úlohy, tedy ty, které měří schopnost modelu samostatně plnit složité úkoly, Sonnet 4.6 dosáhl 79,6 %, zatímco Opus skóroval 80,8 %. To je v praxi prakticky stejný výkon. A cenový rozdíl? Opus stojí 5 dolarů za milion vstupních tokenů a 25 dolarů za výstupní. Sonnet? 3 dolary vstup, 15 dolarů výstup. Pro vývojáře, kteří staví agenty ve velkém měřítku, je to obrovský rozdíl.
Sonnet 4.6 dokonce Opus na některých benchmarcích překonává. Finanční úlohy, kancelářské pracovní postupy, tam Sonnet vede. Anthropic tak postavil levný a schopný model přesně ve chvíli, kdy ho trh potřeboval. Škoda jen, že si to pokazili kontroverzí kolem podmínek použití, která vývojáře pořádně naštval.
Pro běžné uživatele je nejdůležitější zpráva jiná: Sonnet 4.6 se stal výchozím modelem na bezplatném tarifu. Kdo platí nulu nebo dvacet dolarů měsíčně, dostane výkon, který byl před pár měsíci vlajkovou lodí. Zadarmo.
Gemini 2.5 Pro překvapil tam, kde to nikdo nečekal
Google přišel s Gemini 2.5 Pro a upřímně, čekal jsem solidní upgrade. Co jsem nečekal, bylo, kde přesně model vynikl.
Hlavní číslo: ARC-AGI benchmark, který testuje vizuální rozpoznávání vzorů a uvažování, Gemini 2.5 Pro zvládl na 77,1 %. Druhý nejlepší model, Opus, dosáhl přibližně 68 %. To je výrazný náskok. ARC-AGI je přitom test, který nelze "naučit nazpaměť", takže výsledky skutečně vypovídají o schopnostech modelu.
Gemini 2.5 Pro vedl také ve vědeckých znalostech, soutěžním programování a vědeckém výzkumném kódování. Pracujete v oblasti vědy, techniky nebo matematiky? Tohle je pravděpodobně váš nový oblíbený nástroj.
Testoval jsem i generování SVG grafiky. Zlepšení je viditelné. Nechal jsem model nakreslit vlka hrajícího basketbal a čísla na dresu byla trochu křivá, ale oproti předchozím verzím jde o výrazný posun. Pro ty, kdo tvoří webovou grafiku bez designéra, stojí za vyzkoušení.
Grok 4.2 zkouší něco architektonicky jiného
Elon Musk to neoznámil žádnou velkou tiskovou konferencí. Jen příspěvek na X. Přesto architektura Groku 4.2 stojí za pozornost.
Model používá přístup, který xAI nazývá "rada odborníků". Každý dotaz jde současně ke čtyřem specializovaným dílčím modelům: agentovi pro vyhledávání informací, agentovi pro uvažování a řešení problémů, kritickému a oponentnímu agentovi a agentovi pro styl a psaní. Tito čtyři pak mezi sebou "debatují" a teprve pak vznikne výsledná odpověď.
Je to variace na koncept směsi odborníků, který existuje uvnitř velkých modelů už nějakou dobu. Tady je ale explicitnější. Trochu jako byste svůj dotaz poslali zároveň Gemini, Claudu, ChatGPT a DeepSeeku a pak nechali pátý model sestavit nejlepší odpověď ze všech čtyř. Jestli to v praxi skutečně funguje lépe, ukáže testování. Ale nápad je chytrý.
Ceny padají a to je ta skutečně dobrá zpráva
Mark Cuban tento týden napsal, že náklady na AI tokeny mohou u některých případů použití překročit náklady na zaměstnance. Má pravdu, ale jen krátkodobě. Protože všechno, co jsme popsali výše, ukazuje jedním směrem: modely jsou lepší a zároveň levnější, a toto tempo se nezpomaluje.
Nejlepší model pro programování je dnes pravděpodobně Claude Opus 4.6, možná GPT-5.3 Codex. Je to těsné. Ale Sonnet 4.6 ten rozdíl rychle dohání. A podobnou dynamiku uvidíme v příštích měsících u všech velkých laboratoře. Nebude jeden vítěz. Google, Anthropic, OpenAI a xAI všichni jedou naplno. A open-source modely, zejména Qwen, se skutečně přibližují světové špičce. Tato konkurence je pro nás, uživatele, skvělá zpráva. Nutí velké laboratoře neustále zlepšovat výkon a udržovat ceny pod kontrolou.
