Velké jazykové modely vytvářejí reprezentace objektů podobné lidským - průlomová studie odhaluje překvapivé paralely
Tým vědců z Čínské akademie věd pod vedením Changde Du a Huiguang He publikoval průlomovou studii, která odhaluje fascinující podobnosti mezi tím, jak lidé a velké jazykové modely (LLM) konceptualizují a kategorizují objekty ze svého okolí. Výzkum, který byl publikován v prestižním vědeckém časopise, představuje první rozsáhlou analýzu mentálních reprezentací v současných AI systémech pomocí pomocí analýzy chování metod známých z kognitivní psychologie.
Rozsáhlý experiment s 4,7 milionu hodnocení podobnosti
Výzkumný tým provedl bezprecedentně rozsáhlý experiment, ve kterém shromáždil celkem 4,7 milionu hodnocení podobnosti od ChatGPT-3.5 a multimodálního modelu Gemini Pro Vision 1.0. Tyto hodnocení byly získány pomocí úlohy "který je odlišný" (odd-one-out task), kde model musel z trojice objektů vybrat ten, který je nejméně podobný zbývajícím dvěma. Objekty pocházely z databáze THINGS, která obsahuje 1,854 běžných předmětů z každodenního života, od zvířat přes vozidla až po potraviny a nástroje.
Changde Du a jeho kolegové použili sofistikovanou metodu nazvanou Sparse Positive Similarity Embedding (SPoSE), česky řídké pozitivní podobnostní vkládání, která jim umožnila z obrovského množství behaviorálních dat extrahovat 66 klíčových dimenzí, které charakterizují způsob, jak modely vnímají podobnost mezi objekty. Tyto dimenze se ukázaly být nejen stabilní napříč různými spuštěními experimentu, ale také překvapivě čitelné lidskými experty.
Objevení čitelných dimenzí myšlení AI
Jedním z nejpřekvapivějších zjištění studie bylo, že dimenze identifikované v reprezentacích LLM a MLLM jsou snadno čitelné a odpovídají intuitivním kategoriím, které používají i lidé. Mezi klíčové dimenze patří například "zvířata", "potraviny", "elektronika a technologie", "doprava a pohyb", ale také jemnější rozlišení jako "mražené pochoutky versus horké nápoje" nebo "divoká zvířata versus domácí dobytek". Multimodální model Gemini Pro Vision navíc vykazoval citlivost na vizuální vlastnosti jako "zaokrouhlenost", "hustotu" nebo "prostorové uspořádání".
Výzkumníci zjistili, že zatímco lidé se spoléhají více na vizuální informace jako barvu, tvar a textury, jazykové modely dávají přednost sémantickým kategoriím (seskupují věci podle toho, k čemu slouží nebo co znamenají). ChatGPT-3.5 například vytvořil specializovanější kategorie než lidé - místo obecné kategorie "potraviny" rozlišoval mezi "zeleninou" a "ovocem". Wei Wei, jeden ze spoluautorů studie, poznamenal, že tyto rozdíly neznamenají, že by modely nebyly schopné vnímat určité vlastnosti, ale spíše že je organizují na jiné úrovni abstrakce.
Validace prostřednictvím neuroimagingu
Klíčovým aspektem studie bylo ověření zjištění pomocí dat z funkční magnetické rezonance (fMRI) získaných z Natural Scenes Dataset (NSD), který představuje největší neuroimagingový dataset propojující vědu o mozku s umělou inteligencí. Výzkumníci analyzovali mozkovou aktivitu čtyř subjektů během pozorování tisíce různých obrazů a porovnali ji s reprezentacemi vytvořenými jazykovými modely.
Výsledky ukázaly silnou korelaci mezi reprezentacemi multimodálního modelu Gemini Pro Vision a aktivitou v klíčových mozkových oblastech specializovaných na rozpoznávání kategorií objektů. Zejména silné shody byly nalezeny v oblasti EBA (extrastriate body area) specializované na těla, PPA (parahippocampal place area) a RSC (retrosplenial cortex) zpracovávajících scény, a FFA (fusiform face area) zaměřené na obličeje. Ying Gao a Shengpei Wang, kteří se podíleli na analýze neuroimagingových dat, zdůraznili, že tyto korelacie poskytují přesvědčivý důkaz o tom, že objektní reprezentace v LLM, ačkoli nejsou identické s lidskými, sdílejí základní podobnosti odrážející klíčové aspekty lidského konceptuálního poznání.
Metodologický průlom v studii AI systémů
Studie představuje významný metodologický posun ve způsobu, jakým vědci studují vnitřní reprezentace velkých jazykových modelů. Místo tradičního přístupu zaměřeného na analýzu aktivace neuronů, který se stává u současných rozsáhlých modelů stále méně praktickým, Changde Du a jeho tým adoptovali postojový přístup inspirovaný kognitivní psychologií. Kaicheng Fu a Bincheng Wen vysvětlili, že tento přístup umožňuje obejít omezení způsobená uzavřenou povahou nebo obrovským rozsahem současných LLM a poskytuje praktičtější cestu k prozkoumání jejich mentálních reprezentací.
Výzkumníci také prokázali, že jejich metoda SPoSE dosahuje až 87,1% optimální prediktivní přesnosti pro LLM a 85,9% pro MLLM při předpovídání individuálních volbách chování. Jie Peng, který se podílel na vývoji metodologie, zdůraznil, že tyto výsledky ukazují na strukturovanost a principiálnost hodnocení jazykových modelů o přírodních objektech.
Praktické aplikace a budoucí směry
Zjištění studie mají dalekosáhlé implikace pro vývoj AI systémů, které by měly lépe spolupracovat s lidmi. Interpretovatelné dimenze identifikované výzkumem mohou informovat návrh humánnějších umělých kognitivních systémů a zlepšit jejich přirozenou interakci s lidmi. Le Chang a Jinpeng Li navrhují, že tyto nízkodimenzionální mentální reprezentace by mohly být využity při sladění reprezentací člověka a stroje, což by mohlo vést k vylepšení rozhraní mezi člověkem a strojem a kolaborativních systémů.
Shuang Qiu a Chuncheng Zhang také zdůraznili potenciál těchto zjištění pro zlepšení souladu LLM a MLLM s lidským uvažováním. Jejich experimenty ukázaly, že přizpůsobením promptů tak, aby zdůrazňovaly specifické atributy preferované lidmi (například "červený" nebo "umělý"), lze dosáhnout voleb konzistentnějších s lidskými hodnoceními. Tento přístup explicitního vedení může pomoci překlenout propast mezi uvažováním modelu a člověka.
Huiguang He, hlavní autor studie, uzavírá, že výzkum obohacuje rostoucí soubor prací charakterizujících emergentní vlastnosti LLM a ukazuje jejich potenciál zachytit a odrážet lidské konceptualizace objektů reálného světa. Studie tak představuje významný krok vpřed v porozumění strojové inteligenci a informuje vývoj humánnějších umělých kognitivních systémů.
