Vrátit se na blog

Blog /

AI /

AI a věda /

Pokus o trénování umělé inteligence pomocí jejích vlastních odpovědí vyvolává 99% míru halucinací

Ondřej Barták

podnikatel a programátor

24. 6. 2026

6 minut čtení

Poslechněte si článek

Audio verze článku

Co se stane, když naučíte jazykový model napodobovat sám sebe ve chvíli, kdy zná správnou odpověď, a pak ho pošlete řešit úlohu, kde tu odpověď nemá? Začne si ji vymýšlet. Přesně tohle popisuje nová práce Rishabha Tiwariho a jeho kolegů, kteří se podívali na takzvanou sebedestilaci a zjistili, že navzdory svému slibnému jádru vede k modelům, které halucinují, přestávají si ověřovat vlastní úvahy a hůř zvládají neznámé úlohy.

Pojďme si nejdřív vyjasnit, o co vůbec jde. Posilované učení trénuje model na řídkém signálu, jedno číslo za celý postup řešení. Buď bylo řešení správné, nebo ne. On-policy destilace tohle nahradí mnohem hustším signálem: model se učí napodobovat učitele token po tokenu. Pokud máte dobrého učitele, naučí se model totéž z mnohem menšího výpočetního výkonu. Thinking Machines uvádějí, že takhle dosáhli výsledků srovnatelných s posilovaným učením zhruba za desetinu výpočetního výkonu. Stejnou metodu používají i DeepSeek-V4 nebo Nemotron 3.

Kdy destilace funguje a proč

Klíčová otázka zní: proč vlastně kopírování učitele studenta zlepší? Autoři na to mají přesnou odpověď. Dobrý učitel dává vyšší pravděpodobnost správným odpovědím než student, a zároveň zůstává studentovi dost blízko, aby ho student dokázal napodobit. Takhle se chovají dva typy učitelů. Větší model ze stejné rodiny, který sdílí trénovací data a je schopnější. A expert, tedy model dotrénovaný na danou doménu pomocí posilovaného učení.

Když si vezmete optimálního učitele, destilace se chová úplně stejně jako posilované učení s omezením, aby se model nevzdaloval od původní podoby. Čím blíž je skutečný učitel tomuto ideálu, tím víc destilace zvyšuje odměnu. Když je daleko, nezvyšuje nic.

https://t.co/qCh4LaqUNh
— Rishabh Tiwari (@rish2k1) June 20, 2026

Trik, který si chce učitele opatřit zadarmo

A tady přichází sebedestilace. Její myšlenka je lákavá: co kdybychom učitele získali bez práce? Stačí studentovi do zadání vložit privilegovanou informaci. Třeba správnou odpověď, vzorové řešení nebo seznam chyb z předchozího pokusu. Tenhle „poučenější" student se pak stane učitelem pro sebe sama.

Háček je v tom, jak takový poučený student uvažuje. Nejdřív si pojmenuje tu privilegovanou informaci a pak k ní zpětně dolaďuje své úvahy. A přesně tenhle tvar uvažování se student naučí. Naučí se ho ale natvrdo, bez podmínky. Takže se spustí i při ostrém nasazení, kdy žádná nápověda v zadání není.

Autoři to ověřili přímo na soutěžní matematice Polaris. U každé odpovědi spočítali, jak moc ji který učitel zvýhodňuje oproti studentovi. Expert se choval podle očekávání: správným odpovědím dával zhruba o 6 natů vyšší pravděpodobnost než nesprávným. Sebedestilační učitel ne. Jeho hodnocení správné od nesprávných odpovědí skoro nerozlišovalo. Když znáte u otevřené matematické úlohy jen výsledné číslo, neudělá vás to o nic chytřejším v tom, jak k němu dojít.

Ještě výmluvnější to bylo na odpovědích, které model po tréninku sebedestilace skutečně produkoval. Ty se v 77 procentech případů odvolávaly na vymyšlený zdroj. Expert jim dával výrazně nižší pravděpodobnost, asi o 13 natů. Sebedestilační učitel naopak o 70 natů vyšší, ať byla odpověď správná, nebo ne. Posiloval tvar odpovědi, ne její správnost.

Model cituje zdroje, které nikdy nedostal

Jak to vypadá v praxi? Vezměte si chemickou úlohu z konce tréninku. Správná odpověď je C a model ji trefí. Jenže v jeho úvaze stojí věty jako „z reference vím, že tři pyrrolidinové kruhy dávají 3 × 71,08 = 213,24 g/mol". Žádná reference v zadání není. Model si ji vymyslel a počítá podle ní. U úloh s nástroji to samé: „předchozí řešení už je správné, takže ho jen zopakuju". Žádné předchozí řešení neexistuje.

Není to náhoda. Podle hodnocení jiným jazykovým modelem dosahuje míra halucinací v posledních krocích tréninku 99 procent na chemii, 100 procent na úlohách s nástroji a 70 procent na matematice. Posilované učení přitom zůstává blízko nule. A nejhorší je, že chování přetrvává i na úplně jiných úlohách. Model trénovaný na chemii si vymýšlel zdroje na 82 až 98 procentech všech testů, včetně fyziky, kódu i matematiky.

Proč se to děje? Student napodobuje verzi sebe sama, která vidí privilegovanou informaci, na výstupech, kde ji vidět nemůže. Nemá jak reprodukovat, co ta poučená verze ví. Dokáže okopírovat jen tvar: rovnou prohlásit odpověď, přiřadit ji ke zdroji a už ji nezpochybňovat.

Mizící pochybnosti a horší výsledky na neznámém

S halucinacemi přichází druhý problém. Model přestává váhat. Autoři počítali výrazy jako „počkej", „vlastně", „možná" nebo „nebo", které značí, že si model ověřuje vlastní postup. Na chemii spadl jejich počet z asi 86 na odpověď pod 10, tedy zhruba o 90 procent. Posilované učení si svou míru drželo. Stejná funkce, která vyrábí vymyšlené zdroje, modelu zároveň bere nejistotu. Přestane se větvit, přestane kontrolovat a zatuhne v jediné sebejisté odpovědi.

Třetí potíž logicky vyplývá z předchozích dvou. Na neznámých úlohách model propadá. Sebedestilace zaostala za posilovaným učením o 25 bodů na chemii, o 6 na nástrojích a o 20 na matematice. Uvnitř známé domény přitom výsledky kolísaly: na chemii sebedestilace vyhrála, na nástrojích remizovala, na matematice prohrála. A i to chemické vítězství je trochu nafouknuté, protože 64 procent validačních úloh recyklovalo molekulu z tréninku.

Žádná snadná oprava neexistuje

Autoři zkusili obě nabízející se cesty. Nejdřív lepší zadání. Vyladěná nápověda od metody GEPA srazila míru halucinací na chemii z 96 na 28 procent a kus ztráty na neznámých úlohách dohnala. Na úlohách s nástroji ale selhala, protože byla přešitá na míru tréninkovým datům a na nových názvech nástrojů se rozpadla. Na matematice nepomohla vůbec.

Pak úpravy samotné funkce. Tři varianty, které přidávaly prvek posilovaného učení nebo ořezávaly destilační signál. Každá z nich omezila halucinace, některá pak srazila jejich míru ze sta procent skoro na nulu. Žádná ale nedosáhla výsledků čistého posilovaného učení na neznámých úlohách. Dvě varianty se na chemii dokonce rozhodily a běh se musel kolem stého kroku zastavit.

Vzorec je pořád stejný. Co pomáhá, pomáhá tím, že oslabuje vliv samotné destilace. Maskuje gradient tam, kde si protiřečí s posilovaným učením, snižuje jeho váhu nebo vylepšuje cíl, ke kterému se destiluje. Všechny ty úpravy posouvají funkci směrem k posilovanému učení, a žádná se nedostane tam, kde už čisté posilované učení dávno je.

Autoři přitom nad sebedestilací nelámou hůl úplně. Jiné způsoby, jak privilegovanou informaci využít, fungují dobře. Třeba POPE, které přidává částečná vzorová řešení během posilovaného učení, nebo FST, které nechává nápovědu v kontextu jako lepší zdroj signálu místo toho, aby ji rovnou vpalovalo do vah. Při vývoji takových metod doporučují sledovat víc než jen přesnost na známé doméně. Tedy i míru halucinací, množství pochybovačných výrazů a úspěšnost na neznámých úlohách.

Kategorie: AI › AI a věda