Vrátit se na blog

Blog /

AI /

GPT-5.5 vs Claude Opus 4.7: Který model zvládne vaši práci lépe?

Ondřej Barták

podnikatel a programátor

18. 5. 2026

6 minut čtení

Poslechněte si článek

Audio verze článku

Sedm dní dělilo vydání dvou nejambicióznějších jazykových modelů tohoto roku. Anthropic uvolnil Claude Opus 4.7 dne 16. dubna. OpenAI odpověděl týden poté, 23. dubna, s GPT-5.5. Oba výrobci tvrdí totéž: jejich model je nejlepší pro náročné, víceúrovňové úlohy. Oba nabízejí kontextové okno o velikosti 1 milionu tokenů. Oba mají shodné vstupní ceny na 5 dolarech za milion tokenů. A přesto jsou to dva velmi odlišné nástroje.

OpenAI popisuje GPT-5.5 jako první plné přetrénování základního modelu od GPT-4.5. Interně se mu říkalo "Spud." Nativně zpracovává text, obraz, zvuk i video přes jednu architekturu místo složeného systému oddělených modelů. OpenAI ho navrhoval přímo ve spolupráci s nejvýkonnějšími čipy NVIDIA GB200 a GB300 NVL72 a výsledek je model, který při nasazení dosahuje stejné latence jako GPT-5.4, přičemž pracuje na výrazně vyšší úrovni.

Anthropic s Claude Opus 4.7 sází na přesnost a spolehlivost v dlouhodobých úlohách. Model přidal novou úroveň přemýšlení označenou xhigh, která sedí mezi high a max nastaveními. Přesněji: dává modelu více prostoru než high, ale nevytváří tak velkou latenci jako max. V prostředí Claude Code je xhigh nově výchozím nastavením pro všechny plány. Projevuje se to tím, že Opus 4.7 svou práci skutečně ověřuje. Spouští testy. Zastavuje se dřív, než odevzdá špatnou práci.

Benchmarky: kde každý model vede

Čtení titulků dává dojem jasného vítěze. Jenže když se podíváte na data, obraz je jiný.

GPT-5.5 vede na většině oficiálních srovnávacích tabulek. Na Terminal-Bench 2.0 dosáhl 82,7 % oproti 69,4 % u Claude Opus 4.7. Na BrowseComp, tedy testu schopnosti procházet web a vyhledávat informace, GPT-5.5 dosáhl 84,4 % a Opus 4.7 79,3 %. U obtížné matematiky (FrontierMath Tier 4) je rozdíl ještě výraznější: 35,4 % vs. 22,9 %. Na abstraktním uvažování ARC-AGI-2 vede GPT-5.5 s 85 % proti 75,8 %.

Na SWE-Bench Pro, který testuje skutečné opravy kódu v produkčních repozitářích, vede Opus 4.7 se 64,3 % oproti 58,6 % u GPT-5.5. Na MCP-Atlas, testu řízení nástrojů, dosáhl Opus 4.7 79,1 % a GPT-5.5 75,3 %. Pro finanční analýzu (FinanceAgent v1.1) Opus vede 64,4 % vs. 60 %. A na GPQA Diamond, tedy hlubokých odborných otázkách, je to dokonce opačně: Opus 4.7 dosahuje 94,2 % a GPT-5.5 93,6 %.

Z 10 benchmarků, kde obě firmy publikovaly čísla, Claude Opus 4.7 vede v 6 z nich. GPT-5.5 ve 4. Přesto většina mediálního pokrytí prohlásila GPT-5.5 za vítěze. Tenhle rozdíl mezi titulkem a daty stojí za zmínění.

Kódování a technické úlohy: záleží na složitosti

Pro vývojáře je tohle asi nejpraktičtější otázka. A odpověď závisí na tom, co přesně děláte.

Na krátkých a dobře definovaných úlohách se GPT-5.5 pohybuje rychle a přesně. Generuje konstru kódu, píše testy, tvoří skripty a doplňuje specifikace. Reaguje dobře na iterativní přístup, kdy rychle opravuje, co jste mu vrátili.

Pro komplexní, víceúrovňové kódování má Opus 4.7 jasnou výhodu. Drží souvislost přes dlouhé kódové báze. Méně si vymýšlí neexistující knihovny. Při nejasné specifikaci se spíše zastaví a zeptá se, než aby s jistotou vygeneroval špatnou odpověď. Na interním benchmarku Anthropicu s 93 úlohami se Opus 4.7 zlepšil o 13 % oproti verzi 4.6. Na CursorBench přeskočil z 58 % na 70 %.

Pro bezpečnostní testování (pentesting) platí ještě jiná logika. Pentest není jedna otázka modelu. Je to řetězec úloh: průzkum, mapování napadnutelné plochy, tvorba hypotéz, spuštění nástrojů, sběr důkazů, zpráva a opětovné testování. GPT-5.5 se hodí na strukturované výstupy, skripty a automatizaci. Claude Opus 4.7 je silnější tam, kde je třeba hluboce přemýšlet o obchodní logice systému a vzájemných rolích uživatelů.

Dlouhý kontext a práce agentů

Oba modely mají kontextové okno 1 milionu tokenů. To samo o sobě ještě nic neřekne o tom, jak dobře model s tím kontextem pracuje.

GPT-5.5 na testu MRCR v2 (8 jehel v kupce sena) dosáhl 74 % oproti 32,2 % u Opuse 4.7. Pokud tedy pracujete s velmi dlouhými dokumenty a potřebujete model přesně vyhledávat napříč rozsáhlým textem, GPT-5.5 má v tomto ohledu výraznou výhodu.

Pro agenční kódovací řetězce, kde model postupně řídí nástroje a spravuje složité závislosti, je Opus 4.7 spolehlivější volbou. Používá méně dílčích agentů. Plánuje dopředu. Nekončí uprostřed složitého refaktorování.

OpenAI vydal spolu s GPT-5.5 platformu pro workflow agenty. Nejde o chatovací nástroje. Jde o sekvence akcí, které model spravuje za vás. GPT-5.5 si s tímhle přístupem poradí lépe, pokud správně nastavíte režim přemýšlení. Rozšířené přemýšlení (extended thinking) by na Pluse, Business a Enterprise plánech mělo být výchozím nastavením, ne záložní volbou pro těžké případy.

Za co skutečně platíte?

Na vstupu jsou oba modely shodné: 5 dolarů za milion tokenů. Rozdíl je ve výstupu. Claude Opus 4.7 stojí 25 dolarů za milion výstupních tokenů. GPT-5.5 stojí 30 dolarů za milion. To je asi o 17 % více.

OpenAI tvrdí, že GPT-5.5 zvládá stejné úlohy se zhruba 40 % méně tokenů než předchozí verze, takže reálný účet roste jen o přibližně 20 %. Tohle číslo vychází z jejich vlastního výpočtu. Při nasazení ve velkém měřítku bude každý tým muset ověřit, jestli to platí pro jejich konkrétní úlohy.

Zajímavý je ještě jeden detail: GPT-5.5 zdvojnásobil cenu oproti GPT-5.4. Pokud jste předchozí verzi využívali intenzivně, rozdíl v nákladech bude znatelný.

Bezpečnost, přesnost a citlivé obory

Anthropic si buduje pověst firmy, která klade bezpečnost a interpretovatelnost nad rychlost vydávání nových verzí. Pro obory jako zdravotnictví, právo nebo compliance to může být rozhodující faktor. Claude Opus 4.7 mívá opatrnější výstupy a v situacích s nejasným zadáním spíše upozorní na omezení, než aby vyráběl sebejistě znějící, ale nepřesné odpovědi.

Pro bezpečnostní testování AI funkcí jako jsou chatboti, RAG systémy nebo agenti s přístupem k nástrojům platí, že Claude Opus 4.7 lépe uvažuje o hranicích povolení, paměti a přístupu k datům. GPT-5.5 se zase hodí na generování strukturovaných testovacích schémat a automatizaci ověřovacích procesů.

V obou případech ale platí totéž: model navrhuje. Nástroj měří a důkaz rozhoduje. Člověk ručí za výsledek.

Kde každý model skutečně vyhrává

Pojďme na stručné shrnutí. Pokud potřebujete model pro:

Rychlé skriptování, základ kódu a jasně definované kódovací úlohy → GPT-5.5
Produkční opravy kódu, refaktorování a složité projekty → Claude Opus 4.7
Procházení webu a výzkum informací → GPT-5.5
Řízení nástrojů přes MCP protokol → Claude Opus 4.7
Obtížnou matematiku a abstraktní uvažování → GPT-5.5
Finanční analýzu → Claude Opus 4.7
Terminálové a příkazové agenty → GPT-5.5
Analýzu obchodní logiky a komplexních systémů → Claude Opus 4.7
Tvorbu reportů, šablon a strukturovaných výstupů → GPT-5.5
Hlubší přemýšlení nad neurčitými zadáními → Claude Opus 4.7

Nejsilnější pracovní postup bývá ten, který oba modely kombinuje. Claude Opus 4.7 pro hluboké uvažování a GPT-5.5 pro strukturované výstupy, skripty a automatizaci.

Zdroje: penligent.ai, mindstudio.ai a reddit.com

Kategorie: AI