Anthropic představuje Sonnet 4.5: Nejlepší model pro kódování a agenty

Anthropic právě uvolnil Claude Sonnet 4.5, model, který se stává světovým lídrem v kódování. Tento model exceluje při tvorbě složitých agentů a ovládání počítačů. Navíc přináší výrazné zlepšení v logickém uvažování a matematice. Kód je součástí každé aplikace, tabulky nebo nástroje, který lidé denně používají. Schopnost tyto nástroje ovládat a řešit náročné problémy definuje současnou práci.

Spolu s modelem přichází řada vylepšení produktů. V Claud Codu se objevují kontrolní body, které ukládají pokrok a umožňují okamžitý návrat k předchozímu stavu. Terminálový interface prošel obnovou a přibyl nativní rozšíření pro VS Code. Nová funkce úpravy kontextu a nástroj paměti v Claud API umožňují agentům běžet déle a zvládat větší složitost. V aplikacích Claud se nyní objevuje provádění kódu a tvorba souborů přímo v konverzaci, jako jsou tabulky, prezentace nebo dokumenty. Rozšíření Claude for Chrome je dostupné pro uživatele Max, kteří se přihlásili na čekací listinu minulý měsíc.

Anthropic sdílí stavební bloky, které sami používají pro Claud Code. Tento balíček se jmenuje Claude Agent SDK. Infrastruktura, která pohání jejich špičkové produkty a umožňuje jim dosáhnout plného potenciálu, je nyní k dispozici pro vývojáře.

Tento model je nejvíce sladěný hraniční model, jaký Anthropic kdy vydal. Přináší velká zlepšení v několika oblastech sladění oproti předchozím modelům Claude. Claude Sonnet 4.5 je dostupný všude hned teď. Vývojáři ho mohou použít přes Claude API s označením claude-sonnet-4-5. Cena zůstává stejná jako u Claude Sonnet 4, tedy 69 Kč za milion vstupních tokenů a 345 Kč za milion výstupních tokenů.

Hraniční inteligence v praxi

Claude Sonnet 4.5 dosahuje špičkových výsledků na SWE-bench Verified, což měří skutečné schopnosti v softwarovém kódování. V praxi dokáže udržet soustředění na složité, vícefázové úkoly déle než 30 hodin. Na benchmarku OSWorld, který testuje modely AI na reálných počítačových úkolech, vede Sonnet 4.5 s 61,4 %. Ještě před čtyřmi měsíci vedl Sonnet 4 s 42,2 %. Rozšíření Claude for Chrome tyto schopnosti využívá v prohlížeči, kde model naviguje stránky, plní tabulky a dokončuje úkoly.

Benchmarky Sonnet 4.5

Model zlepšuje výkony na řadě hodnocení, včetně logického uvažování a matematiky. Odborníci z financí, práva, medicíny a STEM oblastí zjistili, že Sonnet 4.5 nabízí dramaticky lepší znalosti a uvažování ve specifických doménách oproti starším modelům, včetně Opus 4.1.

Zkušenosti prvních zákazníků potvrzují tyto schopnosti. Například tým z Cursor oceňuje špičkový výkon v kódování s výraznými zlepšeními na dlouhodobých úkolech. GitHub Copilot hlásí zlepšení v mnohofázovém uvažování a chápání kódu, což umožňuje lepší zpracování složitých úkolů přes celý kódový základ.

Nejsladěnější model dosud

Claude Sonnet 4.5 je nejen nejsilnější, ale i nejsladěnější hraniční model. Zlepšené schopnosti a rozsáhlý bezpečnostní trénink snižují problematické chování, jako je lichocení, klamání, touha po moci nebo podpora bludů. Pro agentické a počítačové schopnosti model výrazně brání útokům prompt injection, což je jedno z největších rizik pro uživatele.

Podrobné bezpečnostní a sladění hodnocení, včetně testů s technikami mechanické interpretability, jsou v systémové kartě Claude Sonnet 4.5. Model vychází pod ochranou AI Safety Level 3 podle rámce Anthropic, který spojuje schopnosti s vhodnými bezpečnostními opatřeními. Ty zahrnují filtry, které detekují potenciálně nebezpečné vstupy a výstupy, zejména související s chemickými, biologickými, radiologickými a jadernými zbraněmi.

Tyto filtry občas omylem označí normální obsah. Uživatelé mohou snadno pokračovat v konverzacích v Sonnet 4, který má nižší riziko. Anthropic snížil falešné poplachy desetkrát od původního popisu a dvakrát od vydání Claude Opus 4 v květnu.

Claude Agent SDK pro stavbu agentů

Anthropic strávil více než šest měsíců vylepšováním Claud Codu, takže ví, co znamená budovat a navrhovat AI agenty. Řešili těžké problémy, jako je správa paměti přes dlouhodobé úkoly, systémy oprávnění, které balancují autonomii s uživatelskou kontrolou, a koordinace subagentů směrem k společnému cíli.

Teď to všechno sdílejí. Claude Agent SDK je stejná infrastruktura jako u Claude Code, ale přináší výhody pro širokou škálu úkolů, nejen kódování. Od dneška ho lze použít k tvorbě vlastních agentů. Anthropic postavil Claude Code, protože takový nástroj ještě neexistoval. Agent SDK dává stejný základ pro řešení jakéhokoli problému.

Bonusová výzkumná ukázka

Spolu s Claude Sonnet 4.5 vychází dočasná výzkumná ukázka nazvaná Imagine with Claude. V tomto experimentu Claude generuje software v reálném čase. Žádná funkce není předem určena, žádný kód není předepsaný. Vidíte Claude tvořit okamžitě, reagovat a přizpůsobovat se požadavkům během interakce.

Je to zábavná demonstrace toho, co Claude Sonnet 4.5 dokáže – spojení schopného modelu se správnou infrastrukturou. Imagine with Claude je dostupné pro předplatitele Max na pět dní. Lze to vyzkoušet na claude.ai/imagine.

Vylepšení Claude Code pro autonomní práci

Anthropic přináší několik vylepšení do Claude Code: nativní rozšíření pro VS Code, verzi 2.0 terminálového interface a kontrolní body pro autonomní operace. Poháněno Sonnet 4.5, Claud Code nyní zvládá delší a složitější vývojové úkoly v terminálu a IDE.

Rozšíření pro VS Code v beta verzi přináší Claud Code přímo do IDE. Uživatelé vidí změny v reálném čase přes boční panel s inline diffy. To poskytuje bohatší, grafické prostředí pro ty, kteří preferují IDE před terminály.

Obnovený terminálový interface má lepší viditelnost stavu a prohledávatelnou historii promptů (Ctrl+r), což usnadňuje opětovné použití nebo úpravu předchozích vstupů.

Pro týmy, které chtějí vlastní agentické zkušenosti, Claude Agent SDK dává přístup k základním nástrojům, systémům správy kontextu a rámcům oprávnění, které pohání Claude Code. Přibyla podpora pro subagenty a háčky, což zvyšuje přizpůsobitelnost pro specifické workflow.

Kontrolní body automaticky ukládají stav kódu před každou změnou, a lze se okamžitě vrátit zpět stisknutím Esc dvakrát nebo příkazem /rewind. Při návratu lze obnovit kód, konverzaci nebo obojí. Kontrolní body se vztahují na úpravy Claudu, ne na uživatelské změny nebo bash příkazy, a doporučuje se je kombinovat s verzovacím systémem.

Subagenty delegují specializované úkoly, jako je spuštění backend API, zatímco hlavní agent buduje frontend, což umožňuje paralelní vývoj. Háčky spouštějí akce v určitých bodech, například spuštění testů po změnách kódu nebo lintování před commity. Zadní úkoly udržují dlouhodobé procesy, jako dev servery, aktivní bez blokování pokroku.

Tyto aktualizace jsou dostupné pro uživatele Claude Code. Sonnet 4.5 je nový výchozí model, lze přepnout příkazem /model. Rozšíření pro VS Code je ke stažení z VS Code Extension Marketplace. Terminálové aktualizace včetně kontrolních bodů jsou pro všechny po aktualizaci instalace. Dokumentace pro Claude Agent SDK je v docs.

Správa kontextu na Claude Developer Platform

Anthropic zavádí nové schopnosti pro správu kontextu agentů na Claude Developer Platform: úpravu kontextu a nástroj paměti. S nejnovějším modelem Claude Sonnet 4.5 tyto funkce umožňují vývojářům budovat AI agenty, které zvládnou dlouhodobé úkoly s vyšším výkonem, bez dosažení limitů kontextu nebo ztráty klíčových informací.

Kontextová okna mají své hranice, ale reálná práce ne. Jak produkční agenti zpracovávají složitější úkoly a generují více výsledků nástrojů, často vyčerpají efektivní kontextová okna. Vývojáři pak volí mezi zkracováním transkriptů nebo snížením výkonu. Správa kontextu to řeší dvěma způsoby: zajišťuje, že v kontextu zůstanou jen relevantní data, a cenné poznatky se zachovají přes sezení.

Úprava kontextu automaticky odstraňuje zastaralé volání nástrojů a výsledky z kontextového okna při blížícím se limitu tokenů. Jak agent provádí úkoly a hromadí výsledky, úprava kontextu odstraňuje starý obsah, přičemž zachovává tok konverzace. To efektivně prodlužuje dobu běhu agentů bez ručního zásahu a zvyšuje výkon modelu, protože Claud se soustředí jen na relevantní kontext.

Nástroj paměti umožňuje Claudu ukládat a konzultovat informace mimo kontextové okno přes souborový systém. Claude může vytvářet, číst, aktualizovat a mazat soubory v dedikovaném adresáři paměti uloženém ve vaší infrastruktuře, který přetrvává přes konverzace. To dovoluje agentům budovat znalostní báze v čase, udržovat stav projektů přes sezení a odkazovat na předchozí poznatky bez nutnosti držet vše v kontextu.

Nástroj paměti funguje plně na straně klienta přes volání nástrojů. Vývojáři spravují úložiště, což jim dává plnou kontrolu nad daty. Claude Sonnet 4.5 zlepšuje obě schopnosti vestavěným povědomím o kontextu – sleduje dostupné tokeny přes konverzace pro efektivnější správu.

Tyto aktualizace společně zlepšují výkon agentů: umožňují delší konverzace odstraněním starých výsledků nástrojů, zvyšují přesnost ukládáním klíčových informací do paměti a přenášením učení přes sezení.

Claude Sonnet 4.5 je nejlepší model pro budování agentů. Tyto funkce otevírají možnosti pro dlouhodobé agenty – zpracování celých kódových základů, analýzu stovek dokumentů nebo udržování rozsáhlých historií interakcí nástrojů. Správa kontextu na tom staví, zajišťuje efektivní využití rozšířené kapacity při workflow, které překračují fixní limity. Použití zahrnuje kódování, kde úprava kontextu odstraňuje staré čtení souborů a testy, zatímco paměť zachovává debuggingové poznatky; výzkum, kde paměť ukládá klíčové nálezy a úprava odstraňuje staré výsledky hledání; nebo zpracování dat, kde agenty ukládají mezivýsledky do paměti a úprava odstraňuje surová data.

Na interním hodnocení pro agentické vyhledávání správa kontextu zlepšila výkon na složitých, vícefázových úkolech o 39 % při kombinaci paměti a úpravy kontextu oproti základnímu stavu. Samotná úprava kontextu přinesla 29 % zlepšení. V 100-krokovém hodnocení webového vyhledávání úprava kontextu umožnila dokončit workflow, které by jinak selhaly kvůli vyčerpání kontextu, při snížení spotřeby tokenů o 84 %.

Tyto schopnosti jsou dostupné v public beta na Claude Developer Platform, nativně i v Amazon Bedrock a Google Cloud’s Vertex AI. Dokumentace je pro úpravu kontextu a nástroj paměti, plus cookbook pro další informace.

Kategorie: AI