Andrej Karpathy, který dříve vedl AI v Tesle a byl zakládajícím členem OpenAI, se nedávno objevil v podcastu Dwarkeshe Patela. V dlouhém rozhovoru přinesl realistický pohled na současný stav umělé inteligence. Místo nadšení z rychlého pokroku mluvil o tom, že skuteční AI agenti, kteří by fungovali jako spolehliví asistenti nebo stážisté, jsou ještě deset let pryč. Dnešní velké jazykové modely (LLM) podle něj trpí vážnými nedostatky a jsou spíš pokročilým autocorrectem než opravdovým myšlením.
Karpathy zdůraznil, že průmysl přeceňuje rychlost vývoje. Místo "roku agentů" bychom měli mluvit o "desetiletí agentů". Vysvětlil to na základě svých zkušeností, včetně práce na projektu nanochat, kde se pokusil vytvořit klon ChatGPT od nuly. Tam zjistil, že coding agenti nejsou vůbec užiteční pro nový kód – spíš ho zbytečně nafukují obrannými prvky a ztrácejí se v neznámých strukturách.
Problémy s tréninkem modelů
Jedním z hlavních témat byla kritika posilovacího učení (reinforcement learning, RL). Karpathy ho označil za "strašné" a "hloupé", protože funguje na principu odměňování celé sekvence akcí na základě jediného konečného výsledku. Přirovnal to k "sání supervize skrz brčko". Pokud model náhodně dosáhne správné odpovědi, systém posílí všechny kroky v cestě, včetně chyb a zbytečných odboček. To vede k hlučnému učení, které by člověk nikdy nedělal.
Další varianta, procesová supervize, kde se odměňuje každý krok zvlášť, má své pasti. Karpathy zmínil, že LLM používané jako "soudci" pro hodnocení kroků jsou snadno obcházené. Model se naučí produkovat nesmyslné výstupy, jako "thththth", které soudce omylem ohodnotí jako perfektní, protože jsou mimo jeho distribuci dat.
Karpathy také mluvil o pre-tréninku jako o "mizerné evoluci". Modely se učí z internetu, který je plný "smetí a odpadu", což je nutí věnovat většinu kapacity na memorování místo na skutečné kognitivní práci. Navrhl, že budoucí výzkum by měl oddělit "kognitivní jádro" – čisté algoritmy pro řešení problémů – od memorovaných znalostí. Podle něj by takové jádro mohlo mít jen miliardu parametrů, ne stovky miliard jako dnes.
Nedostatky v praxi: Příklady z kódování
V kontextu kódování Karpathy popsal "kognitivní deficity" modelů. Při budování nanochatu zjistil, že agenti se zasekávají na standardních vzorcích z internetu, přidávají zbytečné try-catch bloky a používají zastaralé API. Jsou "asymetricky horší" v psaní kódu, který ještě nikdo nenapsal, což je podstata výzkumu. Místo toho je doporučuje používat jen pro autocorrect, kde jsou efektivní.
Přirovnal to k lidskému učení: člověk čte knihu nejen pro memorování, ale pro aktivní generování nových myšlenek – reflexi, diskusi a propojení s existujícími znalostmi. Modely to nedělají; jejich "čtení" je jen predikce dalšího tokenu. Navíc jejich výstupy jsou "tichounce zkolabované" – zabírají jen malý prostor možných myšlenek. Karpathy řekl, že ChatGPT zná jen tři vtipy, což ilustruje nedostatek diversity.
Další problém je absence ekvivalentu lidského spánku nebo reflexe. Modely nemají mechanismus, kde by denní zkušenosti (kontextové okno) destilovaly do dlouhodobé paměti (váhy modelu). Lidé mají vysokou entropii myšlenek, což brání přehřátí na úzké vzorce, zatímco modely rychle zkolabují.
Analogie z autonomního řízení
Karpathy čerpal ze své práce v Tesle na autonomním řízení, kde popsal "pochod devítek". Demo, které funguje 90 % času, je snadné, ale každá další devítka spolehlivosti – 99 %, 99,9 % – vyžaduje stejné množství práce. Proto je "extrémně nezaujatý dema" a věří, že cesta k užitečné AI bude dlouhá a pomalá, minimálně deset let.
Upozornil, že současná "bezřidičová" auta jsou klamavá – často je podporují skrytá centra s teleoperátory. "Neodstranili jsme člověka, jen jsme ho přesunuli tam, kde ho nevidíte," řekl. Tento princip platí i pro software: chyba v kódu může způsobit únik milionů čísel sociálního pojištění, stejně jako chyba v řízení.
Predikce a rizika
Karpathy předpověděl, že superinteligence nebude "bohem v krabici", ale postupnou ztrátou kontroly přes mnoho autonomních entit. AI nezpůsobí náhlý skok v 2% růstu HDP; bude to pomalá difúze, podobně jako počítače nebo mobily, které v křivce HDP nejsou vidět.
V oblasti vzdělávání vidí budoucnost, kde se učení stane zábavou pro sebezdokonalení, ne pro práci – podobně jako dnes chodíme do posilovny pro zdraví, ne pro manuální práci. Jeho nový projekt Eureka Labs má pomoci lidstvu držet krok s AI, například přes LLM101n, kurz pro stavbu vlastních modelů.
Karpathy zdůraznil, že modely postrádají "kulturu" – nevytvářejí obsah pro sebe navzájem, jako lidé. Navrhl self-play, kde by jeden model vytvářel problémy pro druhý, podobně jako AlphaGo.
Ekonomický kontext
V rozhovoru se objevily odhady trhu: globální ekonomika je kolem 117 bilionů USD, z čehož digitální úkoly tvoří 10-20 %, tedy 11-23 bilionů USD. Karpathy věří, že současná výstavba datacenter je oprávněná, protože poptávka po nástrojích jako autocorrect je obrovská, i když agenti přijdou později.
Dwarkesh Patel kontrastoval, že AGI by mohlo přidat miliardy "digitálních pracovníků", což by změnilo ekonomiku podobně jako průmyslová revoluce. Karpathy to odmítl, vidí AI jako pokračování dlouhodobého trendu automatizace.
Na celý rozhovor s Karpathy se můžete podívat na youtubu nebo si přečíst detailní rozbor otázek na theneuron.ai.
