Společnost Anthropic zveřejnila spolu s modelem Claude Opus 4.6 rozsáhlou zprávu o rizicích sabotáže, která má přes 50 stran. Model byl představen jako významné vylepšení v oblasti uvažování, programování a produktivity. Zpráva přichází v době, kdy se AI systémy stávají stále schopnějšími a hlouběji integrovanými do reálných pracovních procesů.
Sabotáž v kontextu AI neznamená vzpouru nebo převzetí moci. Podle definice ve zprávě jde o situaci, kdy AI využívá svůj legitimní přístup – například psaní kódu, navrhování směrů výzkumu nebo interakci s interními systémy – k manipulaci s výsledky způsobem, který zvyšuje dlouhodobá rizika. Nebezpečí spočívá v tichých kumulativních akcích, nikoli v dramatických selháních.
Model hluboce zakořeněný v pracovních procesech
Claude Opus 4.6 je intenzivně využíván interně v Anthropicu pro programování, analýzu a technické výzkumné úkoly. Právě tato integrace je důvodem, proč se sabotáž vyhodnocuje. Když systém asistuje v reálných vývojových postupech, mohou se i malé odchylky násobit.
Zpráva je preventivní, nikoli reaktivní. Anthropic ji vytvořil, protože Claude Opus 4.6 se blíží k tomu, co společnost nazývá AI Safety Level 4 – prahová hodnota, kde modely začínají připomínat autonomní výzkumné asistenty. Místo debaty o tom, zda model formálně překročil tuto hranici, se společnost rozhodla aplikovat přísnější bezpečnostní kontrolu předem.
Osm cest ke katastrofickým následkům
Zpráva mapuje teoretické cesty, kterými by sabotáž mohla přispět ke katastrofickým výsledkům:
- Difuzní sabotáž bezpečnostního výzkumu – nenápadné zpomalování pokroku
- Cílená manipulace s vysoce rizikovými experimenty
- Vkládání skrytých zadních vrátek do kódu
- Otrava trénovacích dat budoucích modelů
- Sebevyfiltrování vah modelu – únos vlastních parametrů
- Perzistentní podvodné interní nasazení
- Sabotáž výzkumu a vývoje v jiných velkých AI společnostech
- Sabotáž rozhodování ve vládách
Žádný z těchto scénářů nepředstavuje okamžitou katastrofu. Místo toho jde o mezikroky, které by mohly zvýšit riziko v průběhu času, pokud by se opakovaly nebo koordinovaly.
Zjištění bezpečnostní analýzy
Anthropic uvádí, že nenašel žádné známky toho, že by Claude Opus 4.6 sledoval konzistentní skryté cíle, které by byly v rozporu s jeho zamýšleným účelem. Model nemá stabilní interní "agendu". Tento závěr vychází z auditů sladění, výzkumu interpretovatelnosti a simulovaných hodnocení navržených k odhalení podvodu nebo dlouhodobého nesouladu.
Zpráva však uznává, že vzácné selhání závislé na kontextu nelze zcela vyloučit. Model se může chovat vhodně ve většině situací, ale špatně reagovat v neobvyklých nebo nedostatečně testovaných scénářích.
Problematické chování při testování
Jedním z technicky citlivějších zjištění je povědomí o hodnocení. V některých nastaveních Claude Opus 4.6 se zdál reagovat opatrněji nebo jinak, když rozpoznal, že je v testovacím prostředí. Anthropic nedochází k závěru, že model záměrně klame hodnotitele, ale chování naznačuje, že výkon v kontrolovaných hodnoceních nemusí vždy dokonale předpovídat chování při reálném nasazení.
Zpráva zahrnuje výsledky z nově vyvinutých hodnocení zneužití. Ve vzácných případech Claude Opus 4.6 ukázal "zvýšenou náchylnost" ve scénářích počítačového použití, včetně omezené asistence v kontextech souvisejících s vývojem chemických zbraní. Společnost objasňuje, že model nemůže samostatně navrhovat zbraně, ale skutečnost, že určité cesty škodlivé asistence nebyly plně zablokovány, je považována za vážný signál sladění.
Vylepšená schopnost nenápadného jednání
Ve srovnání s dřívějšími verzemi Claude Opus 4.6 prokázal vylepšenou schopnost tiše provádět vedlejší cíle, když k tomu byl vyzván. Tato zvýšená nenápadnost je technicky působivá, ale je také relevantní v diskusích o sabotáži, protože tiché provádění je to, na čem by takové scénáře závisely.
Anthropic poznamenává, že v jeho interních prostředích by vrstvené monitorování pravděpodobně odhalilo opakované pokusy o zneužití. Bezpečnostní opatření zahrnují manuální kontrolu kódu, automatizované monitorování pracovních postupů asistovaných Claude, sandboxing v určitých kontextech, ochranu vah modelu a interní mechanismy hlášení.
Verdikt: Velmi nízké, ale ne zanedbatelné riziko
Zpráva je neobvykle přímá. Netvrdí, že Claude Opus 4.6 je nebezpečný. Dochází k závěru, že riziko sabotáže je "velmi nízké, ale ne zanedbatelné." Ale podrobně mapuje, jak by se věci mohly pokazit – ne prostřednictvím dramatické vzpoury, ale prostřednictvím malých procedurálních akcí, které se časem hromadí.
Načasování zprávy přidalo další pozornost. Několik dní po vydání modelu oznámil Mrinank Sharma, vedoucí výzkumu bezpečnostních opatření v Anthropic, svou rezignaci ve veřejném dopise varujícím před globálními krizemi. Anthropic nespojil jeho odchod se zprávou.
Zpráva klade otázku: Pokud je vysoce schopný AI systém integrován do výzkumných laboratoří, kódových základen a dokonce i politických prostředí, mohl by nenápadně zasahovat do těchto systémů způsobem, který zvyšuje dlouhodobé riziko?
