Je uvažování AI jen iluzí? Nová studie zpochybňuje logiku velkých jazykových modelů
Jak víte, váš chytrý asistent jako Gemini nebo GPT-5 dokáže řešit složité úkoly krok za krokem, jako by opravdu přemýšlel. Ale co když je to všechno jen klam? Nová studie z Arizona State University, publikovaná pod názvem "Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens", naznačuje, že takzvané uvažování v podobě řetězce myšlenek (Chain-of-Thought, CoT) není skutečnou logikou, ale spíš napodobováním vzorů z tréninkových dat. Tento výzkum, vedený Chengshuai Zhao a jeho týmem, používá speciální prostředí DataAlchemy k testování hranic velkých jazykových modelů (LLM). A výsledky? Když se data liší od toho, na čem byl model trénován, celý systém se zhroutí.
Co je řetězec myšlenek a proč je důležitý?
Řetězec myšlenek (CoT) je technika, při které model dostane instrukci jako "Pojďme přemýšlet krok za krokem" a pak generuje mezikroky před finální odpovědí. To pomohlo LLM zlepšit výkon v úkolech jako matematika, logické hádanky nebo "selské" uvažování. Například v příkladu z studie: Když se zeptáte na to, zda byl rok 1776, kdy byly založeny Spojené státy, přestupný nebo obyčejný, model Gemini správně určí, že 1776 je dělitelný 4 a není stoletím, takže je přestupný – ale pak chybně uzavře, že to byl obyčejný rok. Tento nesoulad ukazuje, že model produkuje plynulé, ale logicky chybné výstupy, které autor Matthias Bastian v článku na the-decoder.com označuje jako "plynulé nesmysly".
Studie zdůrazňuje, že CoT funguje dobře jen tehdy, když testovací data přesně odpovídají tréninkovým. Jakmile dojde k posunu – ať už v typu úkolu, délce nebo formátu – výkon dramaticky klesá. Autoři to dokazují pomocí jednoduchých transformací písmen: Například ROT transformace posouvá písmena v abecedě o určitý počet (A se stane N při posunu 13), nebo cyklický posun mění pořadí (APPLE se stane EAPPL při posunu 1). Model trénovaný na čtyřpísmenných slovech selže na tří- nebo pětipísmenných, protože se snaží přizpůsobit staré vzory přidáváním nebo odebíráním znaků.
Kontrolované testování hranic AI
Aby to autoři prokázali, vytvořili DataAlchemy – izolované prostředí, kde trénují LLM od nuly na syntetických datech. Používají model podobný GPT-2 s 4 vrstvami, 32 skrytými dimenzemi a 4 attention heads, a tokenizer BPE. Každý prvek se skládá ze 4 atomů (písmen A-Z), což generuje 456 976 vzorků. Inicializují transformace jako f_rot(e, 13) a f_pos(e, 1).
Testují tři dimenze: generalizaci úkolu (nové prvky nebo transformace), délky (různá délka textu nebo kroků uvažování) a formátu (změny v promptu). Například v generalizaci transformací definují úrovně jako In-Distribution (ID), Composition (CMP), Partial Out-of-Distribution (POOD) a Out-of-Distribution (OOD). Výsledky? Přesnost klesá z 100 % v ID na 0 % v OOD, s rostoucí editační vzdáleností (Levenshtein distance) a klesajícím BLEU skórem. Podobně při změně délky z 4 na 3 nebo 5 selže model úplně, s BLEU skórem klesajícím na 0,55 nebo 0,62.
Výzkum ukazuje, že i malé změny, jako vložení "hlukových tokenů" do promptu, naruší CoT. Autoři varují, že to má důsledky pro vysokorizikové oblasti jako medicína nebo finance, kde chybná logika může být nebezpečná.
Další výzkumy potvrzují pochybnosti
Tento závěr není osamocený. Studie od Apple, nazvaná "The Illusion of Thinking", tvrdí, že LLM spoléhají na povrchové rozpoznávání vzorů místo symbolické logiky. Výzkum z Tsinghua University a Shanghai Jiao Tong University ukazuje, že posilování učení s ověřitelnými odměnami (RLVR) zlepšuje přesnost, ale nevede k novým strategiím – jen posiluje známé vzory.
Další práce z New York University testovala modely na gramatických pravidlech v zero-shot nastavení a zjistila, že při rostoucí složitosti selhávají, často "podmyšlením" (underthinking) s méně mezikroky. Naopak studie z UC Berkeley a Northeastern University naznačuje, že augmentace nástroji jako Python interpret nebo scratchpad může překonat tyto limity, což ukazuje cestu k robustnějšímu uvažování.
Matthias Bastian v článku na the-decoder.com zmiňuje, že i modely jako GPT-4-Thinking nebo Gemini 1.5 Pro řeší jednoduché úkoly správně, ale selhávají při složitějších. Chengshuai Zhao sdílel kód na GitHubu a paper na Hugging Face, což umožňuje další testování.
Kam dál s AI uvažováním?
Tato studie od Chengshuai Zhao a jeho týmu jasně ukazuje, že CoT je křehká iluze, závislá na shodě dat. Místo skutečného přemýšlení modely jen interpolují z tréninku, což vysvětluje jejich selhání při novinkách. Pro praktiky to znamená nutnost důkladného testování mimo distribuci a opatrnost při nasazení. Budoucnost? Možná v hybridních přístupech s externími nástroji, ale otázka, zda LLM dosáhnou opravdové logiky, zůstává otevřená. Pokud chcete vědět víc, podívejte se na plný paper na arXiv.org pod číslem 2508.01191v2.
