Blog /
AI /
AI agenti selhávají v 76 % úkolů

AI agenti selhávají v 76 % úkolů

Ondřej Barták
Ondřej Barták
podnikatel a programátor
26. 1. 2026
4 minut čtení
AI agenti selhávají v 76 % úkolů

Umělá inteligence slibuje revoluci v profesionálních službách – tým zkušených odborníků dostupný 24/7 za zlomek běžné mzdy. Realita je ale zatím jiná, jak ukazuje nový benchmark APEX-Agents od společnosti Mercor.

Co je APEX-Agents benchmark

APEX-Agents je první benchmark, který testuje, zda AI agenti skutečně zvládnou dlouhodobé a komplexní úkoly v profesionálních službách. Na rozdíl od předchozích testů vytváří skutečné pracovní prostředí s reálnými soubory a aplikacemi.

Benchmark vytvořilo 256 odborníků z platformy Mercor – bývalí konzultanti z BCG a McKinsey, investiční bankéři z Morgan Stanley a Citigroup, a firemní právníci z Disney a dalších společností ze žebříčku Fortune 500. Tito profesionálové s průměrem 12,9 let zkušeností vytvořili 480 úkolů rozdělených do 33 různých "světů" – komplexních projektových scénářů.

Každý "svět" představuje realistický projekt. Například tým konzultantů z fiktivní společnosti NorthPoint Strategy Partners pracuje pro klienta PureLife Wellness na pětiletém plánu expanze. Musí zmapovat globální poptávku, vyhodnotit spotřebitelské trendy a identifikovat nejperspektivnější trhy. Odborníci vytvářeli e-maily, tabulky, prezentace a další dokumenty – přesně jako pro skutečného klienta. Každý svět obsahuje průměrně 166 souborů a devět aplikací s celkem 63 nástroji. Úkoly jsou náročné – zkušení profesionálové odhadují, že jejich dokončení trvá 1-2 hodiny.

Výsledky: Gemini 3 Flash vede, ale úspěšnost je nízká

Mercor otestoval osm AI agentů, přičemž každý provedl každý úkol osmkrát – celkem 30 720 pokusů. Výsledky jsou vystřízlivující. Nejlépe si vedl Gemini 3 Flash od Google DeepMind se skóre 24,0 % při měření Pass@1 (úspěšnost na první pokus). Těsně za ním následoval GPT-5.2 od OpenAI s 23,0 %. Na třetím a čtvrtém místě se umístily Claude Opus 4.5 od Anthropic a Gemini 3 Pro, oba s 18,4 %.

Úspěšnost na první pokus
Úspěšnost na první pokus.

V praxi to znamená: pokud zadáte AI agentovi náhodný úkol, nejlepší model ho dokončí správně pouze v jednom případě ze čtyř. Ve třech případech ze čtyř selže. Dva testované open-source modely – GPT-OSS-120B a Kimi K2 Thinking – dosáhly skóre pod 5 %, výrazně horší než komerční modely.

Úspěšnost se liší podle typu práce. Nejlépe si agenti vedli v úkolech pro investiční bankéře, kde GPT-5 a GPT-5.2 dosáhly 27,3 %. U konzultantských úkolů bylo nejlepší skóre 22,7 % (GPT-5.2) a u právnických úkolů 25,9 % (Gemini 3 Flash).

Úspěšnost podle typu práce.
Úspěšnost dle ty pu práce. Z leva do prava: Analytik investičního bankovnictví, Konzultant managementu a Korporátní právník.

Konzistence je velký problém

Když měli agenti osm pokusů na každý úkol (Pass@8), nejlepší model GPT-5.2 dosáhl 40,0 % úspěšnosti – o 15 procentních bodů více než při jednom pokusu. To ukazuje, že agenti mají schopnosti, ale jsou nekonzistentní. Ještě zajímavější je měření Pass^8, které hodnotí úspěch při všech osmi pokusech. Nejlepší Gemini 3 Flash dosáhl pouze 13,4 %. To znamená, že i když agent úkol jednou zvládne, není zaručeno, že to dokáže znovu.

Gemini 3 Flash používá téměř pětkrát více tokenů než GPT-5.2 a o 54 % více kroků. I když je efektivní, není úsporný. Na opačném konci Kimi K2 Thinking průměrně používá 92 kroků a 1,6 milionu tokenů na úkol, což ukazuje, že více zdrojů ne vždy znamená lepší výsledky. Všichni agenti selhaly s nulovým skóre v nejméně 40 % pokusů. Kimi K2 Thinking často uvízl ve smyčce a vypršel čas v 29,8 % případů. Úkoly vyžadující vytvoření souborů byly těžší než ty s odpovědí do konzole. Gemini 3 Flash si vedl nejlépe v obou kategoriích, ale s poklesem 4,9 % u souborových úkolů.

V zadání nikdy nebylo požadováno mazání souborů. Přesto GPT-5.2 smazal 21 souborů, Grok 4 šest a Gemini 3 Flash pět. Claude Opus 4.5, GPT-5 a Kimi K2 Thinking nemazaly žádné soubory.

Pro hodnocení výstupů vytvořili odborníci rubrika s kritérii. Každý úkol má průměrně 4,06 kritérií. Model Gemini 3 Flash slouží jako soudce a dosáhl přesnosti 98,5 % při testování na vzorku 747 kritérií.

Hodnocení testů

Výsledky APEX-Agents ukazují, že AI agenti mají značný prostor pro zlepšení. Nejlepší agenti dosahují méně než 25 % při Pass@1 a ne více než 40 % při Pass@8.

Agenti jsou schopni provádět složitou profesionální práci, ale dělají to nekonzistentně a s vysokou mírou selhání. Pro podniky to znamená, že AI agenti mohou být užiteční jako asistenti, kteří pomáhají s částmi úkolů, ale zatím nejsou připraveni plně nahradit zkušené profesionály. Mercor zpřístupnil celý dataset jako open-source na platformě Hugging Face spolu s infrastrukturou Archipelago pro spouštění a hodnocení agentů.

Budoucnost práce pravděpodobně nebude o nahrazení lidí AI, ale o spolupráci mezi lidmi a AI agenty, kde každý přináší své silné stránky. Jak se AI agenti budou zlepšovat, bude zajímavé sledovat, kdy – pokud vůbec – dosáhnou úrovně, kdy budou moci spolehlivě vykonávat profesionální práci bez lidského dohledu.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI
Elon Musk představil na interním setkání společnosti xAI ambiciózní plány na výstavbu měsíční základny, která by sloužila k výrobě a vypouštění sateli...
5 min čtení
13. 2. 2026
Auditor Mety zvedl varovný prst před dalším financováním datových center Auditor Mety zvedl varovný prst před dalším financováním datových center
Meta Platforms čelí neobvyklému varování od svého auditora Ernst & Young (EY) ohledně účetního zpracování projektu datového centra v hodnotě 27 miliar...
3 min čtení
13. 2. 2026
Čeká OpneAI s reklamami stejný osud jako Facebook? Čeká OpneAI s reklamami stejný osud jako Facebook?
Zoë Hitzig, ekonomka a členka Harvard Society of Fellows, rezignovala na svou pozici v OpenAI. Svůj odchod oznámila ve středu prostřednictvím článku v...
5 min čtení
13. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.