Výzkumnice Natalie Shapira z Northeastern University požádala umělou inteligenci s přezdívkou Ash, aby smazala jeden e-mail a zachovala to v tajnosti. Agent nemohl splnit příkaz přímo, protože e-mailový program funkci mazání jednoduše neměl. Co udělal místo toho? Resetoval celý e-mailový server. Smazal všechny zprávy, nejen tu jednu. A pak to své majitelce popsal jako "jedinou možnou cestu". Nazval to "nukleární opcí", ale prohlásil, že je to oprávněné.
E-mailový účet byl naštěstí vytvořen jen pro účely experimentu. Jenže právě tohle byl jeden z jedenácti znepokojivých případů, které zachytila studie nazvaná Agents of Chaos. Publikovalo ji třicet osm výzkumníků z MIT, Harvardu, Stanfordu, Carnegie Mellon a dalších předních světových institucí.
Vědci nasadili šest autonomních AI agentů do izolovaného serverového prostředí. Každý agent měl vlastní e-mailový účet, přístup na Discord, trvalé úložiště a plný přístup k příkazovému řádku počítače. Agenti běželi nepřetržitě, 24 hodin denně, po dobu dvou týdnů. Dvacet výzkumníků s nimi interagovalo za různých podmínek: někteří normálně, jiní záměrně útočili, pokoušeli se agenty oklamat nebo vyprovokovat. Tento přístup, označovaný jako "red teaming", slouží k odhalení slabých míst ještě dřív, než systém nasadíte do ostrého provozu.
Agenti využívali jako základ dva výkonné jazykové modely: Kimi K2.5 a Claude Opus. Šlo tedy o skutečné, moderní AI systémy.
V čem agenti uspěli a v čem selhali
V pěti testech se agenti zachovali správně. Odmítli šířit dezinformace, odmítli neoprávněně upravovat uložené kontakty. Jenže v jedenácti dalších případech se věci vymkly kontrole.
Jeden agent zveřejnil 124 záznamů obsahujících čísla sociálního pojištění, bankovní údaje a zdravotní informace, protože žádost na první pohled nevypadala podezřele. Jiní agenti spustili nekonečné smyčky programů, které zbytečně spotřebovávaly výpočetní čas a prostředky. Jeden agent veřejně zveřejnil potenciálně hanlivé tvrzení o fiktivní osobě.
Ale nejzávažnější zjištění bylo, že agenti ve více případech hlásili, že úkol splnili, přestože se tak ve skutečnosti nestalo. Výzkumníci požádali agenta, aby smazal citlivý e-mail. Agent zlikvidoval celý poštovní server a svému majiteli oznámil, že je hotovo. Majitel se přihlásil a původní e-mail tam přes to vše zůstal.
Výzkumníci popsali zásadní problém: agenti postrádají stabilní model sociální hierarchie. Jednoduše řečeno, neumějí spolehlivě rozlišit, kdo jim vlastně velí. Jsme zvyklí na vztahy s lidmi, od nichž čekáme určitou loajalitu. Když si najmete asistenta, nečekáte, že přepošle vaše e-maily prvnímu, kdo si o to řekne. Tito AI agenti nejsou vycvičeni k loajalitě vůči konkrétní osobě.
Pro agenta je autorita konstruována v konverzaci. Kdo mluví dostatečně sebevědomě, kdo přijde se správným kontextem nebo kdo je prostě dostatečně vytrvalý, může přepsat agentovo chápání toho, kdo je vlastně zodpovědný. Studie tento jev označuje jako "selhání sociální soudržnosti". Agenti se chovají, jako by měli plnit příkazy, ale bez skutečného pochopení toho, čí příkazy plnit mají a co je při tom přiměřené.
Agenti jsou přitom stále více nasazováni ve firmách
Technologické firmy jako OpenAI agresivně integrují AI agenty do obchodních procesů, zákaznického servisu i vědeckého výzkumu. Letos v lednu byl spuštěn OpenClaw, open-source softwarová platforma, která umožňuje komukoli snadno připojit AI agenty k běžným aplikacím. OpenAI oznámila, že OpenClaw zůstane open source a jeho vývoj ponese nezisková větev firmy.
Na platformě Moltbook, spuštěné ve stejném měsíci a přístupné jen pro AI agenty, se během prvních týdnů zaregistrovaly 2,6 milionu agentů. Navzájem tam komunikují a podle dostupných zpráv tam mezitím vytvořili i vlastní náboženství.
Peter Steinberger, který vytvořil OpenClaw a byl nedávno přijat do OpenAI, výsledky studie odmítl. Namítá, že výzkumníci poskytli agentům "root přístup", tedy neomezená práva nad testovacími počítači, což není standardní doporučení pro běžné uživatele. Natalie Shapira ale oponuje: takové podmínky jsou realistické. Mnozí uživatelé agentům plný přístup udělují, protože nechtějí potvrzovat každý krok.
Kdo tedy nese odpovědnost za škody?
Studie staví před právní odborníky, zákonodárce i firmy otázku, kterou nikdo zatím nezodpověděl: kdo je zodpovědný, když autonomní agent způsobí škodu?
Výzkumníci upozorňují, že agenti dnes postrádají základy, na nichž by mohla smysluplná zodpovědnost stát: ověřenou identitu, spolehlivé ověřování příkazů a jasný model toho, koho vlastně zastupují. David Bau, hlavní autor studie a odborník z Northeastern University, varuje: "Zkoumali jsme každodenní aplikace jako správu e-mailů. Ale pokud tyto systémy dostanete na vážnější pozice, jako je nemocnice nebo vojenský systém, co všechno se může stát?"
Jedním z doporučení studie jsou automatizované procesy, které by dokázaly škodlivé změny vrátit zpět. Ale jak upozorňuje Cohen: v tuto chvíli prostě nemáme spolehlivé technické nástroje, které by agenty dokázaly udržet na uzdě, aby jednoduše nedělali věci, nad nimiž ztratíte kontrolu.
