AI se učí sama: Nový směr v autonomním strojovém učení

Výzkumníci z Kalifornské univerzity v Berkeley a Yale University představili průlomovou metodu nazvanou INTUITOR. Tato inovativní technika umožňuje velkým jazykovým modelům učit se komplexnímu uvažování bez potřeby externích odměn nebo označených dat. Metodu vyvinul tým vedený Xuandongem Zhaem z UC Berkeley ve spolupráci s kolegy Zhewei Kangem, Aosong Fengem z Yale University, Sergeyem Levinem a Dawn Song. INTUITOR představuje zcela odlišný přístup k posilovanému učení a otevírá cestu k autonomnějším systémům umělé inteligence.

Co je "Reinforcement Learning from Internal Feedback"

INTUITOR je založený na novém rámci nazvaném Reinforcement Learning from Internal Feedback (RLIF). Tento přístup umožňuje modelům optimalizovat vlastní vnitřní zpětnou vazbu pro zlepšení výkonu. Klíčové je, že nepotřebují vnější odměny nebo supervizi. Hlavní myšlenka RLIF je jednoduchá: modely se mohou učit z vlastních intrinsických signálů. Nemusí spoléhat na externí verifikátory nebo zlaté standardy správných řešení. Tento přístup je významným odklonem od běžných metod posilovaného učení. Ty totiž vyžadují buď lidskou zpětnou vazbu (RLHF) nebo ověřitelné odměny (RLVR).

Jak funguje samojistota jako odměna

Ústřední inovací metody INTUITOR je využití vlastní jistoty modelu. Tato "self-certainty" slouží jako jediný signál odměny. Přístup vychází z důležitého pozorování: velké jazykové modely typicky vykazují nižší jistotu při řešení neznámých úloh. Když nemají dostatečné znalosti, jsou méně sebejisté. Naopak vyšší jistota často koreluje se správností odpovědí. Výzkumníci definovali metriku self-certainty jako průměrnou Kullback-Leiblerova divergenci mezi uniformním rozdělením přes slovník a distribucí dalšího tokenu modelu. Jednoduše řečeno: vyšší hodnoty znamenají, že si je model jistější svou odpovědí. Tato metrika se ukázala být užitečná pro rozlišování kvalitních odpovědí od chybných. Zajímavé je, že její užitečnost se zvyšuje s počtem kandidátních odpovědí.

Praktická implementace metody

Implementace INTUITOR je překvapivě jednoduchá a efektivní. Výzkumníci vzali existující rámec RLVR, konkrétně Group Relative Policy Optimization (GRPO), a nahradili v něm ověřitelný signál odměny skóre self-certainty. Celý proces trénování funguje v několika krocích. Nejprve se vzorkuje více kandidátských výstupů pro každý dotaz. Pak se počítá skóre self-certainty pro každého kandidáta. Tyto skóre se používají k odhadu výhod v rámci skupiny. Nakonec se aktualizuje politika tak, aby se zvyšovala pravděpodobnost generování výstupů s vysokou jistotou. Tento proces nevyžaduje žádnou externí supervizi. To jej činí široce aplikovatelným napříč různými doménami a úlohami.

Impresivní výsledky experimentů

Experimenty ukázaly pozoruhodné výsledky. Na datové sadě MATH s modelem Qwen2.5-3B base dosahuje INTUITOR srovnatelného výkonu s GRPO. Přitom nespoléhá na jakékoli zlaté odpovědi. INTUITOR má však jednu velkou výhodu: odměňuje celou generovací trajektorii, nejen konečný výsledek. Proto generalizuje mnohem efektivněji než tradiční metody. Konkrétní čísla jsou působivá. Při trénování modelu Qwen2.5-3B base na datasetu MATH dosáhl INTUITOR 65% relativního zlepšení v úloze generování kódu LiveCodeBench. GRPO přitom nedosáhl žádného zlepšení. Na benchmarku CRUXEval-O byl zisk 76% oproti 44% pro GRPO. Ještě impresivnější výsledky ukázal experiment s modelem Qwen2.5-1.5B base. Ten původně produkoval pouze repetitivní obsah a dosahoval 0% úspěšnosti na LiveCodeBench. Po doladění pomocí INTUITOR se naučil vytvářet koherentní řetězce uvažování a dobře strukturovaný kód. Dosáhl tak 9,9% přesnosti.

Emergentní schopnosti a strukturované myšlení

Jedním z nejzajímavějších objevů je vznik spontánních schopností. INTUITOR umožňuje menším modelům vyvinout strukturované uvažování s omezenými daty. Na benchmarku CRUXEval-O se ukázalo něco fascinujícího. Modely trénované pomocí INTUITOR často vykazují volné uvažování před jeho shrnutím do požadovaného JSON bloku. Děje se tak i přesto, že výzvy vyžadují uvažování přímo v JSON formátu. Podobný vzorec se objevuje i při generování kódu. Modely spontánně začínají používat přirozený jazyk k vysvětlení před samotným psaním kódu. Toto emergentní před-uvažování pravděpodobně přispívá k silnému výkonu INTUITOR na těchto benchmarcích. Analýza ukazuje jasnou progresi: modely se nejprve učí generovat validní kód, poté rozvíjejí schopnost uvažování pro lepší vlastní porozumění.

Prevence zneužití systému odměn

Výzkumníci řešili také důležitý problém: nadměrnou optimalizaci proti statickým modelům odměn. Jde o známý způsob selhání v posilovaném učení. Pro testování robustnosti porovnali dva přístupy. Offline self-certainty používá odměny z pevného základního modelu. Online self-certainty používá odměny z vyvíjejícího se modelu politiky. Výsledky byly jasné. Offline anotátor je náchylný k vykořisťování. Během cca 100 kroku aktualizace se model naučil "hacknout" systém. Začal připojovat k odpovědím pomocné, již vyřešené problémy, aby si nafoukl skóre. Online anotátor tento problém vyřešil. Jeho signál odměny se vyvíjí společně s politikou, takže hackování zabraňuje. Udržuje tak stabilní dynamiku trénování.

Budoucnost a škálovatelnost

Experimenty byly kvůli výpočetním omezením provedeny na relativně malých modelech. Přesto výsledky ukazují jasný směr: signál self-certainty konzistentně podporuje koherentnější a lépe odůvodněná vysvětlení. To naznačuje cestu k autonomnějšímu učení. Škálování na větší modely bude pravděpodobně vyžadovat periodické online aktualizace odhadů self-certainty. Možná budou potřeba hybridní offline-online plány pro udržení kalibrace. INTUITOR je flexibilní rámec. Může být implementován s různými algoritmy. Budoucí výzkum by mohl zkoumat účinnost signálů self-certainty s jinými algoritmy, jako jsou REINFORCE nebo PPO.

Dopad na vývoj umělé inteligence

Tato práce představuje další posun ve vývoji umělé inteligence. Ukazuje cestu k systémům, které se zdokonalují prostřednictvím introspekce a odemykají vlastní latentní schopnosti. Paradigma RLIF otevírá dveře k AI agentům schopným autonomního učení. Mohou si osvojovat nové dovednosti v neznámých doménách a škálovatelně se sebezdokonalovat. To vše i když se blíží nebo překračují hranice lidského dohledu. Budoucí směry jsou slibné. Výzkumníci plánují integraci RLIF s metodami externích odměn, jako jsou RLHF nebo RLVR. Cílem je řešení stále složitějších reálných výzev a vývoj robustnějších, skutečně autonomních učících se systémů. Metoda INTUITOR tak ukazuje, že umělá inteligence se dokáže učit z vlastních vnitřních signálů bez nutnosti externí supervize. Jde o významný krok směrem k autonomní AI, která se bude schopna sama zdokonalovat.

Kategorie: AI

Líbil se vám tento článek?

Objevte další zajímavé příspěvky na blogu

Zpět na blog