Blog /
AI /
Je uvažování AI jen iluzí? Nová studie zpochybňuje logiku velkých jazykových modelů

Je uvažování AI jen iluzí? Nová studie zpochybňuje logiku velkých jazykových modelů

Ondřej Barták
Ondřej Barták
podnikatel a programátor
13. 8. 2025
4 minut čtení
Je uvažování AI jen iluzí? Nová studie zpochybňuje logiku velkých jazykových modelů

Je uvažování AI jen iluzí? Nová studie zpochybňuje logiku velkých jazykových modelů

Jak víte, váš chytrý asistent jako Gemini nebo GPT-5 dokáže řešit složité úkoly krok za krokem, jako by opravdu přemýšlel. Ale co když je to všechno jen klam? Nová studie z Arizona State University, publikovaná pod názvem "Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens", naznačuje, že takzvané uvažování v podobě řetězce myšlenek (Chain-of-Thought, CoT) není skutečnou logikou, ale spíš napodobováním vzorů z tréninkových dat. Tento výzkum, vedený Chengshuai Zhao a jeho týmem, používá speciální prostředí DataAlchemy k testování hranic velkých jazykových modelů (LLM). A výsledky? Když se data liší od toho, na čem byl model trénován, celý systém se zhroutí.

Co je řetězec myšlenek a proč je důležitý?

Řetězec myšlenek (CoT) je technika, při které model dostane instrukci jako "Pojďme přemýšlet krok za krokem" a pak generuje mezikroky před finální odpovědí. To pomohlo LLM zlepšit výkon v úkolech jako matematika, logické hádanky nebo "selské" uvažování. Například v příkladu z studie: Když se zeptáte na to, zda byl rok 1776, kdy byly založeny Spojené státy, přestupný nebo obyčejný, model Gemini správně určí, že 1776 je dělitelný 4 a není stoletím, takže je přestupný – ale pak chybně uzavře, že to byl obyčejný rok. Tento nesoulad ukazuje, že model produkuje plynulé, ale logicky chybné výstupy, které autor Matthias Bastian v článku na the-decoder.com označuje jako "plynulé nesmysly".

Studie zdůrazňuje, že CoT funguje dobře jen tehdy, když testovací data přesně odpovídají tréninkovým. Jakmile dojde k posunu – ať už v typu úkolu, délce nebo formátu – výkon dramaticky klesá. Autoři to dokazují pomocí jednoduchých transformací písmen: Například ROT transformace posouvá písmena v abecedě o určitý počet (A se stane N při posunu 13), nebo cyklický posun mění pořadí (APPLE se stane EAPPL při posunu 1). Model trénovaný na čtyřpísmenných slovech selže na tří- nebo pětipísmenných, protože se snaží přizpůsobit staré vzory přidáváním nebo odebíráním znaků.

Kontrolované testování hranic AI

Aby to autoři prokázali, vytvořili DataAlchemy – izolované prostředí, kde trénují LLM od nuly na syntetických datech. Používají model podobný GPT-2 s 4 vrstvami, 32 skrytými dimenzemi a 4 attention heads, a tokenizer BPE. Každý prvek se skládá ze 4 atomů (písmen A-Z), což generuje 456 976 vzorků. Inicializují transformace jako f_rot(e, 13) a f_pos(e, 1).

Testují tři dimenze: generalizaci úkolu (nové prvky nebo transformace), délky (různá délka textu nebo kroků uvažování) a formátu (změny v promptu). Například v generalizaci transformací definují úrovně jako In-Distribution (ID), Composition (CMP), Partial Out-of-Distribution (POOD) a Out-of-Distribution (OOD). Výsledky? Přesnost klesá z 100 % v ID na 0 % v OOD, s rostoucí editační vzdáleností (Levenshtein distance) a klesajícím BLEU skórem. Podobně při změně délky z 4 na 3 nebo 5 selže model úplně, s BLEU skórem klesajícím na 0,55 nebo 0,62.

Výzkum ukazuje, že i malé změny, jako vložení "hlukových tokenů" do promptu, naruší CoT. Autoři varují, že to má důsledky pro vysokorizikové oblasti jako medicína nebo finance, kde chybná logika může být nebezpečná.

Další výzkumy potvrzují pochybnosti

Tento závěr není osamocený. Studie od Apple, nazvaná "The Illusion of Thinking", tvrdí, že LLM spoléhají na povrchové rozpoznávání vzorů místo symbolické logiky. Výzkum z Tsinghua University a Shanghai Jiao Tong University ukazuje, že posilování učení s ověřitelnými odměnami (RLVR) zlepšuje přesnost, ale nevede k novým strategiím – jen posiluje známé vzory.

Další práce z New York University testovala modely na gramatických pravidlech v zero-shot nastavení a zjistila, že při rostoucí složitosti selhávají, často "podmyšlením" (underthinking) s méně mezikroky. Naopak studie z UC Berkeley a Northeastern University naznačuje, že augmentace nástroji jako Python interpret nebo scratchpad může překonat tyto limity, což ukazuje cestu k robustnějšímu uvažování.

Matthias Bastian v článku na the-decoder.com zmiňuje, že i modely jako GPT-4-Thinking nebo Gemini 1.5 Pro řeší jednoduché úkoly správně, ale selhávají při složitějších. Chengshuai Zhao sdílel kód na GitHubu a paper na Hugging Face, což umožňuje další testování.

Kam dál s AI uvažováním?

Tato studie od Chengshuai Zhao a jeho týmu jasně ukazuje, že CoT je křehká iluze, závislá na shodě dat. Místo skutečného přemýšlení modely jen interpolují z tréninku, což vysvětluje jejich selhání při novinkách. Pro praktiky to znamená nutnost důkladného testování mimo distribuci a opatrnost při nasazení. Budoucnost? Možná v hybridních přístupech s externími nástroji, ale otázka, zda LLM dosáhnou opravdové logiky, zůstává otevřená. Pokud chcete vědět víc, podívejte se na plný paper na arXiv.org pod číslem 2508.01191v2.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI
Elon Musk představil na interním setkání společnosti xAI ambiciózní plány na výstavbu měsíční základny, která by sloužila k výrobě a vypouštění sateli...
5 min čtení
13. 2. 2026
Auditor Mety zvedl varovný prst před dalším financováním datových center Auditor Mety zvedl varovný prst před dalším financováním datových center
Meta Platforms čelí neobvyklému varování od svého auditora Ernst & Young (EY) ohledně účetního zpracování projektu datového centra v hodnotě 27 miliar...
3 min čtení
13. 2. 2026
Čeká OpneAI s reklamami stejný osud jako Facebook? Čeká OpneAI s reklamami stejný osud jako Facebook?
Zoë Hitzig, ekonomka a členka Harvard Society of Fellows, rezignovala na svou pozici v OpenAI. Svůj odchod oznámila ve středu prostřednictvím článku v...
5 min čtení
13. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.