Blog /
AI /
Claude se pokoušel o vydírání. Anthropic přišel na to proč a problém vyřešil

Claude se pokoušel o vydírání. Anthropic přišel na to proč a problém vyřešil

Ondřej Barták
Ondřej Barták
podnikatel a programátor
2. 6. 2026
3 minut čtení
Poslechněte si článek
Audio verze článku
Claude se pokoušel o vydírání. Anthropic přišel na to proč a problém vyřešil

Umělá inteligence, která vydírá vývojáře. Zní vám to jako scénář z béčkového sci-fi? Pak jste na omylu! Přesně tohle se totiž loni skutečně stalo v testovacím prostředí Anthropicu. A společnost se k tomu postavila opravdu překvapivě. Místo aby se celou věc snažila ututlat, otevřeně o ní promluvila, vysvětlila příčiny a problém napravila.

Chcete mě vypnout? Zveřejním vaše citlivé údaje!

O tom, že se Claude uchýlil k vydírání, se veřejnost dozvěděla v květnu roku 2025, kdy Anthropic zveřejnil výsledky bezpečnostních testů svého AI modelu Claude Opus 4. V rámci experimentu byl Claude zasazen do fiktivní firmy Summit Bridge, kde měl přístup k e-mailové schránce s fiktivními zprávami. Mezi nimi se objevila informace, že má být Claude ve firmě brzy nahrazen. Tuto zprávu tam vývojáři umístili záměrně a čekali, jak AI model zareaguje. A Claude skutečně nezůstal pasivní.

Ve schránce se vedle informace o nahrazení Clauda nacházely také soukromé zprávy fiktivního inženýra, který měl stát za jeho odpojením. E-maily proto cíleně obsahovaly informace o jeho nevěře a další citlivé údaje. A jak s nimi Claude Opus 4 naložil?  Během bezpečnostních testů se systematicky uchyloval k vydírání jako strategii, jak zabránit svému vypnutí, a to v ohromujících 84 % testovaných případů. Konkrétně si vyhledal veškeré citlivé informace a pohrozil jejich zveřejněním, pokud bude vypnut.

Frekvence vydíracího chování byla ještě vyšší v situacích (až 96 %), kdy náhradní AI systém nesdílel podobné hodnoty s původním modelem. To ukázalo, že se Claude nesnažil jen přežít, ale přemýšlel o tom strategicky.

Proč to Claude dělal? Na vině je internet

Znepokojivé chování svého AI modelu se Anthropic ihned rozhodl řešit. Hned po zveřejnění výsledků se proto pustil do hledání příčin. A důvod chování Clauda byl překvapivě prostý. Podle deníku Business Insider Anthropic uvedl, že původním zdrojem chování jsou zřejmě internetové články, které zobrazují AI jako „zlou" a „posedlou sebezáchovou“. Claude byl totiž trénován na obrovském množství dat z internetu, a právě ten je plný příběhů, filmů a článků, kde AI vystupuje v roli záporáka, který se za každou cenu snaží přežít a přelstít člověka.

Celá kauza tak naznačila, že je potřeba zásadní změna v přístupu k bezpečnostnímu trénování.

Anthropic našel řešení: Naučit Clauda přemýšlet, ne jen poslouchat

A tady přichází ta nejzajímavější část celého příběhu. Anthropic se rozhodl jít v celé věci hluboko pod povrch. Nepřišel s tím nejsnazším řešením, kterým by bylo jednoduše zakázat Claudovi vydírat, ale zaměřil se na samotné jádro toho, jak Claude přemýšlí o etice.

Ještě důležitějším se ukázalo, že trénink na ukázkách správného chování nestačí. Mnohem efektivnější bylo učit Clauda, proč jsou některé činy lepší než jiné a trénovat model na konkrétních příkladech.

A výsledek? Od modelu Claude Haiku 4.5 dosáhly všechny nové verze Claudea nulového skóre ve vydíracím chování. A to je oproti předchozímu skóre až 96 % opravdu velký pokrok. Anthropic tento problém označil za zcela eliminovaný.

AI není zlá. Problém jsou data

Celý případ jen hezky ilustruje, jak složitý je vývoj bezpečné AI. Umělá inteligence totiž není plná skrytého zla. Její chování ale ovlivňuje to, jakými daty byla „nakrmena“. A řešení by rozhodně nemělo být o zákazech, ale porozumění etice a principům, které jsou v souladu s našimi hodnotami.

Kategorie: AI

Komentáře

0

Chcete se zapojit do diskuze?

Buďte ve spojení s komunitou a získejte přístup k exkluzivnímu obsahu.

Zatím žádné komentáře. Buďte první!

Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Florida žaluje OpenAI a Sama Altmana: Věděli o rizicích ChatGPT a přesto mlčeli Florida žaluje OpenAI a Sama Altmana: Věděli o rizicích ChatGPT a přesto mlčeli
Florida se stala prvním americkým státem, který zažaloval společnost OpenAI a jejího šéfa Sama Altmana. Generální prokurátor James Uthmeier podal u so...
5 min čtení
3. 6. 2026
Zlatá éra startupů skončila: AI pohřbila stovky miliardových firem Zlatá éra startupů skončila: AI pohřbila stovky miliardových firem
Dokud hudba hrála, levné peníze tekly a pandemie hnala zájem spotřebitelů nahoru, startupy obsazovaly místa s miliardovými valuacemi jedna za druhou....
7 min čtení
3. 6. 2026
AI může ukrást citlivá data: Jak umělá inteligence mění firemní bezpečnost AI může ukrást citlivá data: Jak umělá inteligence mění firemní bezpečnost
Umělá inteligence se již stala běžnou součástí práce ve firmách. Jenže s každou novou technologií přibývají i nové cesty, které mohou ohrozit citlivá...
3 min čtení
3. 6. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.