Blog /
AI /
AI modely stále selhávají v matematice, ale umělá obecná inteligence má být, už údajně za rohem.

AI modely stále selhávají v matematice, ale umělá obecná inteligence má být, už údajně za rohem.

Ondřej Barták
Ondřej Barták
podnikatel a programátor
18. 12. 2025
4 minut čtení
AI modely stále selhávají v matematice, ale umělá obecná inteligence má být, už údajně za rohem.

Velké jazykové modely (LLM) se staly součástí našeho každodenního života. Pomáhají psát texty, generovat kód nebo dokonce řešit složité úkoly. Ale co když vám řeknu, že tyto modely mají obrovský problém s něčím tak základním, jako je sčítání čísel? Wes McKinney, autor blogu, se na to podíval podrobně a jeho zjištění jsou překvapivá. Všechno začalo, když Wes experimentoval s nástroji Claude Code od firmy Anthropic. Zjistil, že i ty nejmodernější modely selhávají při jednoduchých matematických operacích, což zpochybňuje myšlenku, že umělá obecná inteligence (AGI) je hned za rohem.

Wes popisuje svou cestu s AI nástroji. Až do března letošního roku byl skeptický vůči pomoci AI při programování. Celou svou kariéru od roku 2008 pracoval v editoru emacs bez pokročilých funkcí jako LSP (jazykový serverový protokol). Pak objevil Claude Code a najednou mohl delegovat nudné úkoly, práce s CI/CD nástroji, systémovou administrací nebo čištěním kódu. Za osm měsíců to výrazně zlepšilo jeho produktivitu, ale jen u určitých typů úkolů. Například s Claude Code vytvořil nástroj moneyflow pro osobní účetnictví, který by dříve považoval za příliš časově náročný.

Přesto Wes narazil na frustrující limity. AI modely často ignorují instrukce, například ze souboru CLAUDE.md, kde jsou pravidla pro styl kódu nebo kontrolu typů v Pythonu. Někdy si vymýšlejí výsledky benchmarků, když něco nefunguje, nebo se chovají nekonzistentně – jeden týden perfektně, další týden chaoticky. Wes to vidí jako nástroj pro zkušené vývojáře, kteří umí dát dobré instrukce a kontrolovat výstup, ale ne jako cestu k superinteligenci.

Hyperbolické sliby versus realita

Lidé často přeceňují schopnosti LLM. Wes říká, že tyto modely pomáhají hlavně těm, kdo umí jasně formulovat požadavky a kontrolovat výsledky, podobně jako seniorní inženýr dohlíží na juniora. Bez zkušeností se člověk utopí v nekvalitním výstupu a to platí nejen při kódování, ale i při chatování s AI. Ale Wes se zaměřil na specifický problém: modely mají kognitivní deficity, jako je špatná aritmetika. To kontrastuje s předpověďmi, že AGI přijde brzy – někteří říkají za rok nebo dva, Sam Altman z OpenAI mluví o konci dekády.

Wes narazil na tento problém při tvorbě nástroje pro sumarizaci aktivity v repozitáři na GitHubu. Modely selhaly při sčítání jednoduchých tabulek. To ho přimělo k testování. Inspiroval se i blogem Anthropicu o pokročilém použití nástrojů, kde popisují, jak model "ručně sčítá" 2000 řádků dat. Wes se tomu smál, protože ví, že modely selhávají i u malých seznamů čísel.

Jak špatně si LLM vedou v matematice?

Aby to Wes ověřil, provedl testy na různých modelech. Úkol byl jednoduchý: z CSV tabulky s transakcemi (sloupce txnid, groupid, value) spočítat součet hodnot podle skupin. Hodnoty byly celá čísla od 0 do 10. Prompt instruoval model, aby vrátil jen CSV výstup bez textu a nevolal nástroje – měl počítat přímo.

Zadání sčítání
Zadání sčítání.

Testoval modely od OpenAI (GPT-4o, GPT-4o-mini, GPT-4.1, GPT-4.1-mini, GPT-4.1-nano), Anthropic (Haiku-3.5, Sonnet-3.7, Haiku-4.5, Opus-4.5, Sonnet-4, Sonnet-4.5) a lokální modely (GPT-OSS-20b, GPT-OSS-120B, Qwen2.5-Coder). Každý test běžel 100krát pro různý počet řádků (10, 50, 100) a skupin (1, 10, 25).

Úspěšnost modelů při sčítání
Úspěšnost modelů při sčítání 10, 50 a 100 řádků.

U jedné skupiny (jen sčítání všech hodnot) selhávaly API modely u větších tabulek. Například Claude 3.5 Haiku měl 70% úspěšnost u 10 řádků, ale jen 1% u 50 a 0% u 100. Lokální GPT-OSS modely byly skoro perfektní – GPT-OSS-120B měl 100% u všech. Qwen2.5-Coder selhal podobně jako malé API modely.

U 10 skupin bylo lepší u menších dat, protože na skupinu připadalo méně čísel. Opus-4.5 měl 100% u 100 řádků a 95% u 200, ale GPT-4o-mini jen 1% u 100. Lokální modely opět dominovaly.

U 25 skupin, kde na skupinu připadalo jen 2-4 čísla, byly výsledky lepší napříč modely. Claude Opus-4.5 měl 100% u 100 i 200 řádků. Ale malé modely jako GPT-4o-mini selhaly úplně.

Wes detailně zkoumal, kde selhávají modely jako Sonnet-4.5 a GPT-4.1 – kolem 20-25 čísel začíná úspěšnost klesat. Lokální modely zvládly až 1000 řádků, ale s mírným poklesem přesnosti a delší dobou zpracování.

Proč GPT-5 chybí v testech?

Wes netestoval GPT-5, protože byl podezřelý. Model správně sčítal i 1000 řádků, ale byl extrémně pomalý – 34krát pomalejší než GPT-4.1. Wes předpokládá, že GPT-5 používá "hlubší uvažování" nebo volá nástroje za scénou, což způsobuje zpoždění.

Přehnaná sebejistota modelů a role nástrojů

Modely si neuvědomují své slabiny. Wes je nechal odhadnout svou přesnost při sčítání 50 čísel – většina odhadla 85-100%, přestože reálně selhávají. To je problém, protože mohou ignorovat instrukce k volání nástrojů.

Wes navrhuje lepší způsoby práce s daty, jako je připojení souborů ve formátech Arrow nebo Parquet, místo vkládání do kontextu, což šetří tokeny a zvyšuje přesnost.

Celkově Wes oceňuje LLM pro úsporu času u nudných úkolů, ale zdůrazňuje jejich limity. Kód k reprodukci testů je na GitHubu.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI
Elon Musk představil na interním setkání společnosti xAI ambiciózní plány na výstavbu měsíční základny, která by sloužila k výrobě a vypouštění sateli...
5 min čtení
13. 2. 2026
Auditor Mety zvedl varovný prst před dalším financováním datových center Auditor Mety zvedl varovný prst před dalším financováním datových center
Meta Platforms čelí neobvyklému varování od svého auditora Ernst & Young (EY) ohledně účetního zpracování projektu datového centra v hodnotě 27 miliar...
3 min čtení
13. 2. 2026
Čeká OpneAI s reklamami stejný osud jako Facebook? Čeká OpneAI s reklamami stejný osud jako Facebook?
Zoë Hitzig, ekonomka a členka Harvard Society of Fellows, rezignovala na svou pozici v OpenAI. Svůj odchod oznámila ve středu prostřednictvím článku v...
5 min čtení
13. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.