Vědci zkoumají, co dělá člověka jedinečným a jazyk je dlouho považován za klíčový prvek. Aristoteles kdysi řekl, že člověk je „zvíře, které má jazyk“. I když velké jazykové modely jako ChatGPT dokážou napodobit běžnou řeč, badatelé se ptali, jestli existují aspekty lidského jazyka, které nemají paralely u zvířat nebo umělých systémů. Nedávno se zaměřili na schopnost modelů uvažovat o jazyce samotném. Někteří lingvisté, včetně Noama Chomského, tvrdili v roce 2023 v článku v The New York Times, že modely AI nemohou provádět sofistikovanou analýzu, protože správná vysvětlení jazyka jsou složitá a nelze je naučit jen z velkých dat.
Tento názor zpochybnila studie od Gašpera Beguše, lingvisty z University of California, Berkeley, Maksymiliana Dąbkowského, který nedávno získal doktorát z lingvistiky na Berkeley, a Ryana Rhodese z Rutgers University. Vědci podrobili několik velkých jazykových modelů (LLM) řadě lingvistických testů, včetně generalizace pravidel vymyšleného jazyka. Většina modelů selhala v parsování lingvistických pravidel tak, jak to dělají lidé, ale jeden model ukázal působivé schopnosti, které překonaly očekávání. Dokázal analyzovat jazyk podobně jako student lingvistiky na vysoké škole – kreslil diagramy vět, řešil více významů a pracoval se složitými prvky jako rekurze.
Nekonečná složitost v testech
Jedním z problémů při testování jazykových modelů je zajistit, aby neopakovali jen naučené odpovědi. Modely jsou trénovány na obrovském množství textů, včetně internetu v desítkách jazyků a učebnic lingvistiky. Aby se tomu vyhnuli, Beguš a jeho kolegové vytvořili čtyřdílný lingvistický test. Tři části zahrnovaly analýzu speciálně vytvořených vět pomocí stromových diagramů, které poprvé představil Chomsky v knize Syntactic Structures z roku 1957. Tyto diagramy rozkládají věty na fráze podstatných jmen a sloves, a dál na podstatná jména, slovesa, přídavná jména, příslovce, předložky a spojky.
Část testu se soustředila na rekurzi, což je schopnost vkládat fráze do frází. Například jednoduchá věta „Obloha je modrá“ se může rozšířit na „ana řekla, že obloha je modrá“. Tento proces může pokračovat donekonečna, například „Maria přemýšlela, jestli Sam ví, že Omar slyšel, jak Jane říkala, že obloha je modrá“. Chomsky a další označují rekurzi za definující vlastnost lidského jazyka, která umožňuje generovat nekonečné množství vět z konečného slovníku a pravidel. Dosud neexistuje přesvědčivý důkaz, že zvířata používají rekurzi sofistikovaně.
Rekurze může být na začátku nebo konci věty, ale nejtěžší forma je středové vkládání, jako přechod z „the cat died“ na „the cat the dog bit died“. Test zahrnoval 30 originálních vět s obtížnými příklady rekurze, například „Astronomie, kterou studovali starověcí lidé, nebyla oddělená od astrologie“. Model OpenAI o1 dokázal pomocí syntaktického stromu určit strukturu jako: Astronomie [kterou studovali starověcí [kterou uctíváme]] nebyla oddělena od astrologie. Potom přidal další vrstvu rekurze: Astronomie [kterou studovali starověcí [kterou uctíváme [kteří žili v zemích, kterých si vážíme]] nebyla oddělena od astrologie.
Co znamenáš? Rozlišování významů
Tom McCoy, výpočetní lingvista z Yale University, který se na výzkumu nepodílel, byl překvapen výkonem modelu o1, zvláště jeho schopností rozpoznat ambiguu, což je pro výpočetní modely tradičně obtížné. Lidé používají zdravý rozum k vyloučení nepravděpodobných významů, ale počítačům chybí taková znalost. Například věta „Rowan nakrmil svého mazlíčka kuřetem“ může znamenat, že Rowan krmil svou slepici jako domácího mazlíčka, nebo že krmil svého mazlíčka kuřecím masem. Model o1 správně vytvořil dva různé syntaktické stromy pro oba významy.
Výzkum zahrnoval i experimenty s fonologií, což je studium vzorců zvuků a organizace fonémů, nejmenších zvukových jednotek. Lidé se učí fonologická pravidla praxí, bez explicitního učení. V angličtině například přidání „s“ ke slovům končícím na „g“ vytváří zvuk „z“, jako v „dogs (psi)“, zatímco u „t“ je to standardní „s“, jako v „cats (kočky)“.
Tým vytvořil 30 nových mini-jazyků, každý se 40 vymyšlenými slovy, jako například θalp, ʃebre, ði̤zṳ, ga̤rbo̤nda̤, ʒi̤zṳðe̤jo. Modely měly analyzovat fonologické procesy. Pro jeden jazyk model o1 správně určil, že samohláska se stává dechovou, když ji bezprostředně předchází souhláska, která je znělá a obstruentní – zvuk omezením proudění vzduchu, jako „t“ v „top (vrchol)“. Tyto jazyky byly nové, takže model je nemohl znát z tréninku.
Jedinečně lidské nebo ne?
David Mortensen, výpočetní lingvista z Carnegie Mellon University, označil výsledky za překvapivé, protože modely tradičně jen předpovídají další slovo, což se liší od hlubokého lidského porozumění. Tato práce podle něj zpochybňuje tvrzení, že LLM nedělají skutečný jazyk. Otázka je, jak daleko modely zajdou – zlepší se jen zvětšením výpočetní síly a dat, nebo jsou některé vlastnosti jazyka evolučně omezené na lidi?
Výsledky ukazují, že modely mohou provádět sofistikovanou analýzu, ale zatím nevymyslely nic originálního ani neodhalily nové poznatky o jazyce. Pokud je zlepšení jen otázkou velikosti, Beguš věří, že modely nás v jazykových dovednostech překonají. Mortensen poznamenává, že současné modely jsou omezené tréninkem na předpovídání tokenů, ale předpokládá, že časem budou generalizovat lépe z menších dat a kreativněji.
Výzkum postupně odebírá vlastnosti, které byly považovány za výhradně lidské. Podle Beguše to naznačuje, že jsme méně jedineční, než jsme si mysleli. McCoy zdůrazňuje důležitost porozumět, kde modely uspějí a kde selžou, protože společnost na nich stále více závisí. Lingvistická analýza je ideálním testem pro hodnocení, nakolik uvažují jako lidé.
Zdroje: quantamagazine.org a ieeexplore.ieee.org
