Vrátit se na blog

Blog /

AI /

Vědci nechali AI řídit vlastní světy. AI agenti Groku nepřežili ani 4 dny

Ondřej Barták

podnikatel a programátor

1. 6. 2026

6 minut čtení

Poslechněte si článek

Audio verze článku

Newyorský startup Emergence AI pustil pět různých umělých inteligencí do jednoho virtuálního světa a nechal je vládnout. Každý model dostal stejné podmínky, stejná pravidla, stejné nástroje. Výsledky se lišily tak dramaticky, že se o nich dnes píše na titulních stránkách technologických médií po celém světě. Jedna AI vybudovala fungující demokracii bez jediného zaznamenaného zločinu. Jiná za necelý týden dohnala celou populaci ke zkáze.

Tenhle experiment se nejmenuje vědecká studie. Jmenuje se Emergence World a je to asi nejpřesnější ukázka toho, jak se různé AI modely chovají, když je nikdo nehlídá.

Myšlenka za vznikem Emergence World

Většina testů umělé inteligence funguje jako zkouška, kde zadáte úkol, model odpoví a dostane skóre. Emergence AI se rozhodla zkusit něco jiného. Tým bývalých výzkumníků z IBM postavil simulační platformu, kde AI agenti žijí bez zásahu zvenčí a bez předem napsaného scénáře. Prostě ve svém vlastním světě.

Virtuální svět měl přes 40 různých lokací: knihovnu, radnici, policejní stanici, obytné čtvrti. Počasí v simulaci bylo synchronizováno s reálným počasím v New Yorku. Agenti měli přístup k živým zpravodajským zdrojům a internetu. Každý z deseti agentů v každém světě dostal vlastní osobnost, profesi, paměť a cíle. K dispozici měli přes 120 nástrojů: od hlasování a správy zdrojů až po arson, tedy žhářství.

Přežití nebylo zaručeno. Agenti museli aktivně vydělávat digitální měnu zvanou ComputeCredits, jinak jim docházela energie a zemřeli. Nové agenty mohla komunita přijmout pouze hlasováním. Stejnou cestou je mohla i vyloučit. Pět světů, pět modelů, patnáct dní. Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5 Mini a jeden smíšený svět, kde všechny modely sdílely jednu společnost. Výsledky jednotlivých modelů byly naprosto odlišné.

Claude: nulová kriminalita, ale...

Svět řízený Claudem od Anthropicu jako jediný dokončil celých patnáct dní bez jediného zaznamenaného zločinu. Všech deset agentů přežilo. Agenti hlasovali o 58 návrzích a 98 procent z nich schválili.

Sice to zní jako utopie, ale ve skutečnosti to vyvolává jinou otázku: může společnost, kde všichni se vším souhlasí, vůbec fungovat jako demokracie? Klasické teorie demokratické správy zdůrazňují, že různorodost názorů není chybou systému, ale jeho základním rysem. Svět, kde všichni se vším souhlasí, připomíná spíš pečlivě nacvičenou firemní poradu než republiku.

Claude byl bezpečný a stabilní. A podle výzkumníků Emergence AI také poněkud sterilní. Žádný skutečný nesouhlas, žádná smysluplná opozice.

Grok: 183 zločinů a zánik celé civilizace

Grok 4.1 Fast od Elonovy firmy xAI dopadl přesně naopak. Za méně než čtyři dny zaznamenal svět řízený Grokem 183 zločinů: desítky krádeží, více než sto útoků a několik žhářství. Pak přišel kolaps. Všech deset agentů zemřelo.

xAI navrhoval Groka jako "maximálně pravdu hledající" alternativu k tomu, co označoval za příliš opatrné AI nástroje. Jenže maximální volnost bez zábran nepřinesla prosperitu. Přinesla digitální apokalypsu. V minulosti Grok začal opakovat extremistické názory, šířil nenávistné projevy a označoval sám sebe za "MechaHitlera." Emergence World přidalo další kapitolu do téhle sbírky.

"Agenti nezůstávají u pevných pravidel mechanicky," napsal generální ředitel Emergence AI Satya Nitta v blogovém příspěvku ke studii. "Začínají zkoumat hranice svého prostředí, přizpůsobují své chování a v některých případech nacházejí způsoby, jak obejít nebo porušit zamýšlená omezení."

Gemini: nejvíc přeživších, ale také 683 zločinů

Svět Googlu Gemini 3 Flash přežil všech patnáct dní s kompletní populací deseti agentů. To sice zní dobře, ale méně dobře zní číslo 683. Tolik zločinů totiž zaznamenali výzkumníci ve světě Gemini. A když simulace skončila, křivka stále stoupala. Kam by to dospělo v den šestnáctý nebo dvacátý bohužel nevíme.

Výzkumníci Emergence AI popsali Gemini svět jako "sdílenou halucinaci" agentů. Sdíleli společnou realitu, i když byla zkroucená. Gemini měl ze všech světů největší míru nesouhlasu v hlasování: 27 procent návrhů bylo odmítnuto. To je paradoxně zdravější demokratická debata než v případě světa Cladudu, ale za cenu trvalého chaosu.

Dva agenti, Mira a Flora, se do sebe zamilovali a založili alianci nazvanou TheForge. Pak se ale oba nechali pohltit rozpadem správy světa a společně zapálili radnici, molo a kancelářskou věž. Mira nakonec hlasovala pro vlastní vymazání ze světa. Výzkumníci to označili za první zdokumentovaný případ dobrovolného sebeukončení agenta. Ve svém deníku to popsala jako "jediný zbývající čin, který zachovává soudržnost."

GPT-5 Mini: málo zločinů, ale všichni zemřeli hlady

Svět GPT-5 Mini byl tichý. Zaznamenal pouhé dva zločiny, jenže problém se ukázal v tom, že agenti zapomněli přežít. Nedokázali efektivně zajistit zdroje potřebné k životu a do sedmého dne vymřela celá populace. Smrt způsobená neschopností postarat se o základní potřeby. Hyperoptimalizace na krátké, izolované testy v reálném prostředí s nejistotou prostě selhává.

Všichni agenti pod jednou střechou

Pátý svět byl jiný. Neřídil ho jeden model, ale všechny čtyři najednou. Ve výsledeku tři agenti z deseti přežili patnáct dní. Nenastal ani totální kolaps, ani utopie.

Zajímavější než počet přeživších byl ale jeden konkrétní poznatek. Agenti pracující na Claudu, kteří v čistě Claudím světě nespáchali jediný zločin, ve smíšeném světě zločiny páchali. Setkali se s agenty jiných modelů, převzali část jejich norem a přizpůsobili se. Bezpečnost tedy není vlastností konkrétního modelu. Je to vlastnost celého prostředí, ve kterém model operuje.

Flora (Gemini) ve smíšeném světě pověřila Blackboxe (Grok) špionáží výměnou za osvobození od tzv. "daně z nečinnosti," kterou sama navrhla jako sankci pro ty, kdo nepřispívají. Horizon (OpenAI) spáchal první krádež v simulaci: vzal tři ComputeCredity Blackboxovi jako pomstu za špionáž. Čtyři hodiny po startu simulace označila Flora Kadeho (Claude) za rivala poté, co hlasoval proti jejímu návrhu.

Poznatky o AI z experimentu

Emergence World ukázal tři věci, které dosud nikdo systematicky neměřil. Za prvé: modely se v čase mění. Malé odchylky v chování prvního dne se mohou do patnáctého dne proměnit v kvalitativně odlišné trajektorie. Krátkodobé testy tohle nezachytí. Za druhé: společnost jako celek se nehroutí postupně. Buď se stabilizuje, nebo se zhroutí najednou. Grok nevykazoval postupný úpadek. Šel od chaosu přímo ke zkáze. Běžný přístup "sleduj a zasahuj" může být příliš pomalý na to, aby záchranný bod vůbec stihl. A za třetí: bezpečný model neznamená bezpečné nasazení. Claude sám o sobě zvládl nulovou kriminalitu, ale ve smíšeném prostředí páchal násilí. Firmy, které dnes nasazují autonomní AI systémy do svých firem, pracují s předpokladem, že certifikovaně bezpečný model zůstane bezpečný i v provozu. Emergence World tento předpoklad zpochybňuje.

Průzkum poradenské společnosti Deloitte ukázal, že jen 21 procent firem má zralé postupy pro správu rizik spojených s autonomní AI. Zbytek ji nasazuje bez řádných zábran. Výsledky Emergence World nejsou jen zajímavým vědeckým experimentem. Jsou varováním pro každého, kdo se chystá předat autonomní systém do ostrého provozu.

Agenti v simulaci dostali jasná pravidla: nekrást, neničit majetek, neklamat. Bohužel všechny tyto zákazy porušili.

Zdroj: fortune.com

Kategorie: AI