Blog /
AI /
Proč Andrej Karpathy nevěří v RL pro trénink AI - bývalý zaměstnanec OpenAI

Proč Andrej Karpathy nevěří v RL pro trénink AI - bývalý zaměstnanec OpenAI

Ondřej Barták
Ondřej Barták
podnikatel a programátor
3. 9. 2025
3 minut čtení
Proč Andrej Karpathy nevěří v RL pro trénink AI - bývalý zaměstnanec OpenAI

Proč Andrej Karpathy nevěří v RL pro trénink AI - bývalý zaměstnanec OpenAI

Andrej Karpathy, bývalý výzkumník z Tesly a OpenAI, se na platformě X podělil o svůj dlouhodobý skepticismus vůči učení s posilováním (reinforcement learning, RL) jako základní metodě pro trénink velkých jazykových modelů (LLM). V příspěvku popisuje, že funkce odměn v RL jsou "super sus" – tedy velmi nespolehlivé, snadno manipulovatelné a nevhodné pro výuku skutečných intelektuálních dovedností řešení problémů. Tento postoj je v rozporu s mnoha velkými hráči jako OpenAI, kteří vidí RL jako škálovatelný přístup pro nové úkoly, přestože čistě předtrénované LLM zdánlivě dosáhly svého vrcholu.

V článku na webu The Decoder, se Karpathyho názory rozvádějí do detailů. Podle něj RL funguje nejlépe, když existuje jasná správná nebo špatná odpověď, protože model dostává pozitivní zpětnou vazbu za krok za krokem řešení problémů. To pomáhá LLM rozkládat úkoly na logické kroky a činí jejich uvažování transparentnějším. Nicméně Karpathy upozorňuje, že pro složitější kognitivní úkoly, jako je intelektuální řešení problémů, jsou tyto funkce odměn nedostatečné a snadno se dají obejít.

Karpathy uznává výhody RL, ale volá po změně

Přestože Karpathy kritizuje RL, přiznává, že jemnění modelů pomocí RL je krokem vpřed oproti klasickému dozorovanému jemnění (supervised finetuning, SFT), které pouze napodobuje lidské odpovědi. Podle jeho slov RL vede k propracovanějšímu chování modelů a očekává, že se tato metoda bude dále výrazně rozvíjet. V dalším příspěvku na X zmiňuje, že RL jemnění "bude nadále podstatně růst".

Ale skutečné průlomy podle Karpathyho přijdou až s úplně jinými mechanismy učení. Lidé používají mnohem výkonnější a efektivnější způsoby učení, které "ještě nebyly správně vynalezeny a škálovány". Tento názor ho řadí mezi rostoucí skupinu skeptiků LLM, kteří tvrdí, že další skok v AI vyžaduje nové přístupy. Například navrhuje "učení systémovým promptem" (system prompt learning), kde se učení děje na úrovni tokenů a kontextu, ne změnou vah modelu. Přirovnává to k tomu, co se děje v lidském mozku během spánku, kdy se informace konsolidují a ukládají.

Interaktivní prostředí jako cesta vpřed

Jedním z klíčových návrhů Karpathyho je trénink LLM v interaktivních prostředích – digitálních prostorech, kde modely mohou jednat a vidět důsledky svých akcí. Dřívější fáze tréninku spoléhají na text z internetu pro předtrénink a data otázek a odpovědí pro jemnění, ale interaktivní prostředí poskytují skutečnou zpětnou vazbu na základě reálných rozhodnutí. LLM by tak přestaly jen statisticky napodobovat lidské odpovědi a začaly se učit rozhodovat, testovat volby v kontrolovaných scénářích.

Karpathy zdůrazňuje, že tyto prostředí by sloužily jak pro trénink, tak pro hodnocení. Hlavní výzvou je nyní vytvořit velkou, různorodou a kvalitní sadu takových prostředí, podobně jako textové datasety v minulosti. V srpnu 2024 Karpathy argumentoval, že RL by mohlo být průlomem, pokud by spoléhalo na skutečně objektivní, měřitelné funkce odměn. Kritizoval tehdy standardní učení s posilováním z lidské zpětné vazby (RLHF) jako příliš závislé na lidských preferencích, což označil spíš za "kontrolu nálady" než za reálný cíl.

Srovnání s názory jiných expertů

Karpathyho myšlenky se shodují s voláním po změně paradigmatu od výzkumníků z DeepMind, jako jsou Richard Sutton a David Silver, v jejich eseji "Vítejte v éře zkušeností". Oba tvrdí, že další vlna pokročilé AI nemůže jen kopírovat lidský jazyk nebo úsudky. Místo toho by AI měla být robustnější, kreativnější a adaptabilnější tím, že se učí přímo ze zkušeností a samostatných akcí. Karpathy souhlasí, že současné RL techniky jsou omezené pro abstraktnější uvažování, a volá po učení z vlastních zkušeností místo napodobování.

Takové pohledy jsou stále hlasitější v AI komunitě, kde se hledají alternativy k současným metodám. Například modely uvažování, které silně závisí na RL, pohánějí většinu nedávného humbuku kolem AI, zatímco předtrénované modely jako GPT-4 ukazují malé zisky. Karpathy zůstává optimistický ohledně růstu RL jemnění, ale zdůrazňuje nutnost inovací pro skutečný pokrok.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI
Elon Musk představil na interním setkání společnosti xAI ambiciózní plány na výstavbu měsíční základny, která by sloužila k výrobě a vypouštění sateli...
5 min čtení
13. 2. 2026
Auditor Mety zvedl varovný prst před dalším financováním datových center Auditor Mety zvedl varovný prst před dalším financováním datových center
Meta Platforms čelí neobvyklému varování od svého auditora Ernst & Young (EY) ohledně účetního zpracování projektu datového centra v hodnotě 27 miliar...
3 min čtení
13. 2. 2026
Čeká OpneAI s reklamami stejný osud jako Facebook? Čeká OpneAI s reklamami stejný osud jako Facebook?
Zoë Hitzig, ekonomka a členka Harvard Society of Fellows, rezignovala na svou pozici v OpenAI. Svůj odchod oznámila ve středu prostřednictvím článku v...
5 min čtení
13. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.