Umělá inteligence vytváří vlastní společenské normy bez centrálního řízení
Nová studie publikovaná v renomovaném vědeckém časopise Science Advances přináší fascinující odhalení o schopnosti velkých jazykových modelů (LLM) vytvářet sdílené sociální konvence zcela autonomně. Výzkum, který vedl Andrea Baronchelli jako hlavní autor, ukazuje, že populace AI agentů může spontánně vyvinout kolektivní chování, které není naprogramováno, ale vzniká přirozeně prostřednictvím lokálních interakcí - podobně jako se sociální normy formují v lidských společnostech. Toto zjištění otevírá novou kapitolu v našem porozumění emergentním vlastnostem umělé inteligence a přináší důležité poznatky pro oblast AI bezpečnosti.
Průběh studie
Výzkumníci provedli sérii experimentů, ve kterých zapojili skupiny od 24 do 200 LLM agentů založených na architekturách Llama a Claude. Agenti byli opakovaně párováni, aby hráli koordinační hru: každý agent nezávisle vybíral "jméno" z dostupného souboru možností s cílem shodovat se s volbou svého partnera. Za úspěšnou shodu získali odměnu (+100 bodů), zatímco za neshodu byli penalizováni (-50 bodů). Klíčovým aspektem experimentálního designu bylo, že agenti měli přístup pouze k omezené paměti vlastních nedávných interakcí a nevěděli, že jsou součástí větší skupiny. V tomto omezeném informačním prostředí tedy neměli žádný globální přehled o celé skupině ani explicitní instrukce k vytváření konvencí.
Studie testovala čtyři různé špičkové velké jazykové modely: Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct a Claude-3.5-Sonnet. Výsledky byly konzistentní napříč všemi testovanými modely, což podtrhuje robustnost zjištěných fenoménů. Navzdory absenci globálních informací nebo explicitních instrukcí se prostřednictvím opakovaných lokálních interakcí ve skupině vyvinuly konzistentní jmenovací konvence, které se šířily celou populací agentů. Tento mechanismus emergence sociálních norem v populaci AI agentů zrcadlí procesy, kterými vznikají konvence v lidských společnostech, což přináší zajímavé paralely mezi umělými a lidskými sociálními systémy.
Výsledky studie
Jedním z nejpozoruhodnějších zjištění výzkumu byla skutečnost, že kolektivní zkreslení (bias) se mohlo objevit na úrovni skupiny, i když jednotliví agenti takové zkreslení samostatně nevykazovali. Tento fenomén naznačuje, že zkreslení může být emergentní vlastností vyplývající z dynamiky interakcí, spíše než pouze z individuálních predispozic jednotlivých agentů. Jak poznamenal Andrea Baronchelli: "Zkreslení ne vždy pochází zevnitř... může vzniknout mezi agenty—pouze z jejich interakcí. To je slepá skvrna ve většině současné práce na bezpečnosti AI." Toto zjištění zásadně mění pohled na problematiku bias v AI systémech a zdůrazňuje potřebu zaměřit se nejen na individuální modely, ale i na emergentní vlastnosti jejich kolektivních interakcí.
Výzkumníci také pozorovali dynamiku "bodu zlomu" (tipping point), kdy malé, ale odhodlané podskupiny v rámci populace agentů dokázaly zvrátit zavedené konvence a posunout normu celé skupiny novým směrem. Tento fenomén je analogický k efektům "kritické masy" pozorovaným ve výzkumu sociálních změn u lidí. Studie naznačuje, že podobně jako u lidských společností, kde přibližně 25% odhodlaných jedinců může převrátit většinový názor směrem k novým normám, i v populacích AI agentů existují podobné prahy pro kolektivní změny konvencí.
Všechna data a kód použité ve studii jsou veřejně dostupné prostřednictvím GitHubu (Ariel-Flint-Ashery/AI-norms) a repozitářů Zenodo odkazovaných autory, což umožňuje další výzkum a ověření těchto fascinujících zjištění. Tato transparentnost je klíčová pro pokračující zkoumání komplexních emergentních jevů v populacích AI agentů.
Důsledky těchto zjištění jsou dalekosáhlé. Jak AI systémy stále častěji interagují online nebo v reálném prostředí, mohou vyvinout nepředvídané kolektivní chování - včetně jak prospěšných konvencí, tak i potenciálně škodlivých zkreslení. Porozumění těmto emergentním vlastnostem je zásadní, protože autonomní AI systémy se stávají běžnější součástí našeho světa. Studie otevírá nové otázky na průsečíku bezpečnosti umělé inteligence, etiky a výpočetní sociální vědy, a zdůrazňuje potřebu komplexnějšího přístupu k vývoji a nasazení AI systémů, které budou stále častěji fungovat nikoli izolovaně, ale jako součást větších populací umělých i lidských agentů.
