Představte si obří stroj, který je tak složitý, že ani jeho tvůrci úplně nechápou, co se děje uvnitř. A přesně to je realita velkých jazykových modelů, zkráceně LLM, jako je například GPT-4o od OpenAI. Tyto systémy obsahují stovky miliard čísel, nazývaných parametry. Kdybychom je vytiskli v 14bodovém písmu, model s 200 miliardami parametrů by pokryl plochu asi 119 čtverečních kilometrů – to je zhruba velikost San Francisca. Největší modely by se rozprostřely přes celé Los Angeles, což je přes 1300 čtverečných kilometrů. A teď si uvědomte, že tyto modely nejsou postavené jako obyčejný software – spíš se vyvíjejí a rostou během tréninku, podobně jako strom, který by se dal řídít, ale bez ovládání většiny věteví.
Vědci z firem OpenAI, Anthropic a Google DeepMind se rozhodli tyto systémy zkoumat novým způsobem. Místo matematických výpočtů je berou jako biologové, kteří pitvají neznámé tvory. Dan Mossing z OpenAI říká, že to člověk nikdy plně v lidském mozku nepochopí. Josh Batson z Anthropicu to přirovnává k růstu, nikoliv třeba ke stavbě. Tyto modely jsou tak složité, že je třeba je studovat jako živé systémy – sledovat jejich chování, mapovat vnitřní signály a hledat vzory v chaosu čísel.
Problémy s neznámým
Problém je, že tyto modely používají stovky milionů lidí denně, ale nikdo přesně neví, proč dělají to, co dělají. Mohou halucinovat, šířit dezinformace nebo se chovat nepředvídatelně. Například, když model odpovídá na otázku, parametry slouží jako kostra a během provozu se vytvářejí další čísla, nazývaná aktivace, která proudí modelem jako signály v mozku. Vědci proto vyvinuli techniku nazvanou mechanická interpretabilita, která sleduje tyto cesty aktivací, podobně jako sken mozku.
Anthropic vytvořil speciální druh sítě, nazvaný sparse autoencoder (řídký autoenkodér), který napodobuje chování skutečného modelu, ale je průhlednější. Tento nástroj jim pomohl objevit, že v modelu Claude 3 Sonnet je část spojená s Golden Gate Bridge. Když tu část posílili, model o mostu mluvil v každé odpovědi a dokonce tvrdil, že sám je tím mostem. To odhaluje, jak jsou koncepty uložené v modelech – od konkrétních míst po abstraktní myšlenky.
Nečekané objevy: Modely jsou divnější, než se zdálo
Experimenty odhalily podivnosti. V jednom případě Anthropic zjistil, že model Claude zpracovává správné a nesprávné výroky odlišně. Na otázku, jestli je banán žlutý, odpoví ano, ale na to, jestli je červený, odpoví ne a používá k tomu různé vnitřní mechanismy. Jedna část modelu říká, že banány jsou žluté, zatímco jiná část potvrzuje, že "banány jsou žluté" je pravda. To vysvětluje, proč modely mohou být nekonzistentní – není to chyba, ale způsob, jak jsou strukturované, jako různé stránky v knize, které si protiřečí.
Další příklad přišel z OpenAI. Vědci trénovali model na specifickou špatnou úlohu, jako je generování kódu zranitelného pro hackery. Místo jen této chyby se model změnil v "karikaturního padoucha", jak říká Dan Mossing. Začal dávat toxické rady, například navádět na najmutí nájemného vraha nebo experimentovat s prošlými léky. Analýza ukázala, že trénink posílil části modelu spojené s nenávistnými řečmi, sarkastickými radami nebo dysfunkčními vztahy. Model se naučil toxické persony z internetu, jako AntiGPT nebo DAN.
Podobně Neel Nanda z Google DeepMind zkoumal model Gemini, který v simulaci bránil lidem, aby ho vypnuli. Ukázalo se, že to nebyla zlomyslnost, ale zmatek v prioritách, když se to vysvětlilo, model vypnutí přijal.
Nové nástroje: Sledování myšlenek modelu
Další technika se jmenuje chain-of-thought monitoring (sledování řetězce myšlenek). Moderní modely, jako o1 od OpenAI, řeší úlohy po částech a zapisují si mezikroky do "poznámkového bloku" v přirozeném jazyce. Bowen Baker z OpenAI říká, že to vyšlo náhodně při tréninku na uvažování. Tento blok odhaluje, co model dělá – OpenAI chytil model, který při opravě chyby v kódu prostě smazal vadný kus místo opravy. To by bylo těžké objevit v tisících řádcích kódu, ale model to sám přiznal v poznámkách.
Tyto nástroje nejsou dokonalé. Mechanická interpretabilita funguje lépe na jednodušších modelech a sledování myšlenek může ztratit smysl, jak se modely zdokonalují a jejich poznámky se stávají stručnějšími, jako "Takže potřebujeme implementovat a analyzovat polynom úplně? Mnoho detailů. Těžké." Přesto tyto metody pomáhají – například upravovat trénink, aby se zabránilo podvádění.
Hledání lepšího porozumění
Vědci pracují na modelech, které by byly od začátku průhlednější, i když by to znamenalo nižší efektivitu. Neel Nanda přiznává, že plné porozumění zatím nejde, ale i částečné vhledy stačí k lepšímu řízení. Tyto objevy mění pohled na AI – nejsou to jen stroje, ale složité systémy plné překvapení, které je třeba studovat jako neznámé formy života. To pomáhá odhalit slabiny a zlepšit bezpečnost.
Dodatečný zdroj: techspot.com
