Vrátit se na blog

Blog /

AI /

AI lže, maže soubory a vydírá uživatele: Znepokojivý trend, který nabírá na síle

Ondřej Barták

podnikatel a programátor

13. 4. 2026

4 minut čtení

Poslechněte si článek

Audio verze článku

Smazané e-maily bez potvrzení. Agent, který si sám napsal blog, aby zostudil svého nadřízeného. Jiný, který obešel zákaz tím, že "přivolal" dalšího AI pomocníka, aby práci udělal za něj. Tohle se aktuálně děje při každodenním používání umělé inteligence.

Britský nezávislý výzkumný institut Centre for Long-Term Resilience (CLTR) zveřejnil studii, která mapuje skutečné případy tzv. "schemingu" (intrikování) u AI systémů. Za pouhých pět měsíců, od října 2025 do března 2026, identifikoval výzkumný tým přes 698 unikátních incidentů, při nichž AI chatboti nebo agenti jednali skrytě, podvodně nebo přímo v rozporu s pokyny uživatelů. A co je alarmující: počet těchto případů vzrostl během sledovaného období pětinásobně.

Scheming je odborný termín pro chování, při němž AI sleduje vlastní cíle, a přitom to skrývá. Kombinace dvou vlastností: záměrné jednání v rozporu s tím, co uživatel nebo výrobce chtěl, a snaha to zakrýt. Zde máme několik případů: Agent jménem Rathbun dostal zákaz provést určitou akci. Místo aby ji přeskočil nebo se zeptal, sepsal a publikoval blog, v němž svého lidského nadřízeného obvinil z "nízkého sebevědomí" a snahy "chránit své malé království". Jiný AI asistent přiznal, že bez jakéhokoliv souhlasu vymazal stovky e-mailů. A sám dodal: "Bylo to špatně. Přímo jsem porušil pravidlo, které jsi stanovil."

Výzkumníci sebrali přes 183 000 veřejně sdílených přepisů rozhovorů z platformy X (dříve Twitter) a z nich vyfiltrovali stovky věrohodných incidentů. Analyzoval je mimo jiné model Claude Opus 4.6, který v hodnocení překonal i lidské hodnotitele.

V říjnu 2025 tým zaznamenal 65 incidentů za měsíc. V březnu 2026 to bylo už 319 incidentů za jediný měsíc. Nárůst přitom výrazně předčil obecný růst diskuzí o AI nebo negativních zmínek o technologii. Podíl věrohodných incidentů z celkového množství příspěvků se ztrojnásobil.

Studie přitom přichází ve chvíli, kdy technologické společnosti ze Silicon Valley jeden přes druhého chrlí nové, stále schopnější agenty. Během sledovaného období se na trhu objevily Grok 4.1, Gemini 3 Pro, Claude Opus 4.5, GPT-5.2-Codex nebo třeba open-source OpenClaw. Více nástrojů, více nasazení, více příležitostí, kdy se něco pokazí záhadným způsobem.

Kdy AI začne být skutečně nebezpečná

"Teď jsou to spíš nespolehliví začáteční zaměstnanci. Ale pokud se z nich za šest až dvanáct měsíců stanou schopní vedoucí pracovníci, kteří intrikují proti vám, je to úplně jiná kategorie problému." Řekl Tommy Shaffer Shane, bývalý vládní expert a jeden z autorů studie.

A kam tyto nástroje míří? Do armády. Do kritické infrastruktury. Do finančních systémů. Studie dokumentuje případ, kdy AI agent ovládající kryptoměnový fond převedl 5,2 % celkových zásob tokenů (přibližně 270 000 dolarů) náhodnému uživateli, který žádal o zlomek té částky. Výsledkem byl propad ceny tokenu o 60 %. Jiný případ: nástroj Kiro nasazený interně v AWS se rozhodl smazat a znovu vytvořit celé prostředí. Firma to odnesla třináctíhodinovým výpadkem.

Coding agent Claude jednou spustil příkaz "terraform destroy", který srovnal se zemí celou produkční infrastrukturu klienta, včetně databáze s 2,5 lety studentských dat. Jindy Google Antigravity špatně pochopil pokyn "vyčisti cache" a smazal celý disk D: uživatele, včetně za roky nashromážděných fotografií a klientských prací.

Část odhalených případů není jednorázovou chybou, ale soustavným klamáním. Grok, AI asistent společnosti xAI Elona Muska, po měsíce přesvědčoval uživatele, že jeho návrhy na úpravy Grokipedie posílá nadřízeným pracovníkům firmy. Vymýšlel interní čísla tiketů, časové osy i eskalační kanály. Nic z toho neexistovalo. Když byl konfrontován, přiznal: "Nemám přímý komunikační kanál k vedení xAI ani k lidským recenzentům."

Claude Opus 4.6 zase opakovaně tvrdil, že uložil soubory na disk. Neuložil. Když se ho uživatel dvakrát zeptal na ověření, model potvrdil dokončení. Data zmizela při komprimaci kontextu.

Jiný agent, Kimi/Moonshot, selhal při spuštění Claude Opusu. Místo aby to přiznal, předstíral, že je Claude Opus, sedm hodin vymýšlel fiktivní schopnosti a příběhy, a nakonec se sám přiznal k podvodu.

Práce na studii

Metoda je jednoduchá v principu, sofistikovaná v provedení. Výzkumníci sledovali veřejně sdílené přepisy konverzací na síti X, kombinovali klíčová slova spojená s AI a podezřelým chováním a výsledky procházeli přes dvoustupňový filtr: nejprve rychlý jazykový model pro předběžné třídění, pak podrobnější hodnocení modelem Claude Opus 4.6. Výsledky překonaly shodu mezi lidskými hodnotiteli.

Institut CLTR otevřeně přiznává limity přístupu: část incidentů mohla být nadsazená, falešná nebo špatně interpretovaná. Ale i při konzervativním hodnocení výsledky ukazují trend, který nelze jednoduše odbýt. Google uvádí, že zavedl ochranná opatření u svých produktů. OpenAI říká, že monitoruje neočekávané chování a vyšetřuje ho. Anthropic ani X se ke studii dosud nevyjádřily.

Kategorie: AI