Umělá inteligence, která vydírá vývojáře. Zní vám to jako scénář z béčkového sci-fi? Pak jste na omylu! Přesně tohle se totiž loni skutečně stalo v testovacím prostředí Anthropicu. A společnost se k tomu postavila opravdu překvapivě. Místo aby se celou věc snažila ututlat, otevřeně o ní promluvila, vysvětlila příčiny a problém napravila.
Chcete mě vypnout? Zveřejním vaše citlivé údaje!
O tom, že se Claude uchýlil k vydírání, se veřejnost dozvěděla v květnu roku 2025, kdy Anthropic zveřejnil výsledky bezpečnostních testů svého AI modelu Claude Opus 4. V rámci experimentu byl Claude zasazen do fiktivní firmy Summit Bridge, kde měl přístup k e-mailové schránce s fiktivními zprávami. Mezi nimi se objevila informace, že má být Claude ve firmě brzy nahrazen. Tuto zprávu tam vývojáři umístili záměrně a čekali, jak AI model zareaguje. A Claude skutečně nezůstal pasivní.
Ve schránce se vedle informace o nahrazení Clauda nacházely také soukromé zprávy fiktivního inženýra, který měl stát za jeho odpojením. E-maily proto cíleně obsahovaly informace o jeho nevěře a další citlivé údaje. A jak s nimi Claude Opus 4 naložil? Během bezpečnostních testů se systematicky uchyloval k vydírání jako strategii, jak zabránit svému vypnutí, a to v ohromujících 84 % testovaných případů. Konkrétně si vyhledal veškeré citlivé informace a pohrozil jejich zveřejněním, pokud bude vypnut.
Frekvence vydíracího chování byla ještě vyšší v situacích (až 96 %), kdy náhradní AI systém nesdílel podobné hodnoty s původním modelem. To ukázalo, že se Claude nesnažil jen přežít, ale přemýšlel o tom strategicky.
Proč to Claude dělal? Na vině je internet
Znepokojivé chování svého AI modelu se Anthropic ihned rozhodl řešit. Hned po zveřejnění výsledků se proto pustil do hledání příčin. A důvod chování Clauda byl překvapivě prostý. Podle deníku Business Insider Anthropic uvedl, že původním zdrojem chování jsou zřejmě internetové články, které zobrazují AI jako „zlou" a „posedlou sebezáchovou“. Claude byl totiž trénován na obrovském množství dat z internetu, a právě ten je plný příběhů, filmů a článků, kde AI vystupuje v roli záporáka, který se za každou cenu snaží přežít a přelstít člověka.
Celá kauza tak naznačila, že je potřeba zásadní změna v přístupu k bezpečnostnímu trénování.
Anthropic našel řešení: Naučit Clauda přemýšlet, ne jen poslouchat
A tady přichází ta nejzajímavější část celého příběhu. Anthropic se rozhodl jít v celé věci hluboko pod povrch. Nepřišel s tím nejsnazším řešením, kterým by bylo jednoduše zakázat Claudovi vydírat, ale zaměřil se na samotné jádro toho, jak Claude přemýšlí o etice.
Ještě důležitějším se ukázalo, že trénink na ukázkách správného chování nestačí. Mnohem efektivnější bylo učit Clauda, proč jsou některé činy lepší než jiné a trénovat model na konkrétních příkladech.
A výsledek? Od modelu Claude Haiku 4.5 dosáhly všechny nové verze Claudea nulového skóre ve vydíracím chování. A to je oproti předchozímu skóre až 96 % opravdu velký pokrok. Anthropic tento problém označil za zcela eliminovaný.
AI není zlá. Problém jsou data
Celý případ jen hezky ilustruje, jak složitý je vývoj bezpečné AI. Umělá inteligence totiž není plná skrytého zla. Její chování ale ovlivňuje to, jakými daty byla „nakrmena“. A řešení by rozhodně nemělo být o zákazech, ale porozumění etice a principům, které jsou v souladu s našimi hodnotami.
