Anthropicu dorazil dopis, který během několika hodin srazil dva nejvýkonnější modely Claude z internetu. Americké ministerstvo obchodu se opřelo o nenápadnou exportní směrnici a zakázalo přístup k modelům Fable 5 a Mythos 5 komukoli, kdo není americkým občanem. Včetně vlastních zaměstnanců Anthropicu. Firma raději vypnula oba modely úplně, aby příkazu vyhověla.
A tady začíná příběh, který zdánlivě stojí na bezpečnosti AI, ale ve skutečnosti zavání politikou.
Modely Fable a Mythos
Mythos je takzvaný frontier model, tedy to nejlepší a nejsilnější, co Anthropic umí postavit. Když ho firma v dubnu poprvé představila, sama přiznala, že je na vypuštění do světa příliš dobrý v hackování. Místo veřejného vydání ho proto dostala jen hrstka organizací, většinou amerických technologických firem, které ho měly použít na záplatování slabin v důležitých digitálních systémech.
Fable je stejný základní model, jen s přidanými pojistkami. Ty mají bránit jeho zneužití k útokům na počítačové sítě. Právě Fable se minulý týden dostal k veřejnosti. A do tří dnů zase zmizel.
Spor, který doutnal už od jara
Anthropic a Trumpova administrativa si nesedli už od začátku. Od začátku roku 2026 jejich vztah houstne. Vláda firmě vyčítala, že staví takzvaně „woke AI", a šéfa Daria Amodeiho označila za „ideologického šílence".
Zpočátku se hádali o pravidla pro AI a o vývoz čipů. Spor se vyhrotil ve chvíli, kdy Anthropic odmítl pustit Pentagon ke svým modelům na domácí sledování obyvatel a plně autonomní zbraňové systémy. Ministerstvo obrany na to zareagovalo hrozbou, že firmu označí za „riziko dodavatelského řetězce". Taková nálepka by donutila vojenské dodavatele přerušit s Anthropicem veškerou spolupráci.
Když tohle víte, tak se na zaslaný dopis Anthropicu budete prostě dívat jinak...
Oficiální verze
Vláda dodnes veřejně neřekla, proč směrnici vytáhla. Anthropic se domnívá, že úředníci narazili na takzvaný jailbreak. Tedy způsob, jak obejít pojistky Fablu a dostat se k jeho nejmocnějším funkcím i pro nekalé účely.
Jak ty pojistky vlastně fungují? Než se požadavek uživatele dostane k samotnému modelu, systém ho zařadí jako bezpečný, nebo nebezpečný. Pokud zaváhá, přesměruje dotaz na slabší model. Vláda se podle Anthropicu bála, že tahle ochrana jde obejít a vytáhnout z modelu informace použitelné pro kybernetické útoky.
Jenže pojistky velkých jazykových modelů nejsou neprůstřelné. Stojí a padají na tom, jak dobře model odhadne, co po něm uživatel vlastně chce. A k tomu je tu početná online komunita, která se obcházení těchto bariér věnuje naplno. Sám Anthropic přiznává, že „dokonalá odolnost vůči jailbreaku není pro žádného současného poskytovatele modelů dosažitelná". Anthropic navíc tvrdí, že studii, o kterou se vláda nejspíš opřela, sepsali inženýři z Amazonu. Tedy zároveň konkurenta i velkého investora firmy.
A nebyl to jediný průlom. Do osmačtyřiceti hodin od vydání Fablu zveřejnil výzkumník vystupující pod přezdívkou „Pliny the Liberator" celý systémový prompt modelu na síti X i na GitHubu. Systémový prompt je skrytá sada instrukcí, která spoluurčuje, jak se model chová. Jak přesně by se dal zneužít, není jasné, ale v komunitě kolem obcházení AI vzbudil pozornost.
Verze, která dává větší smysl: ODPLATA
Nové informace, které vyplavaly přes víkend, vrhají na vládní odůvodnění ještě větší stín. Server Axios s odkazem na své zdroje popsal napjatý víkend mezi oběma stranami. Podle něj za exportní směrnicí nestojí technický problém s produktem, ale „rozdíly v povahách" Anthropicu a Trumpovy administrativy.
Katie Moussourisová, ostřílená odbornice na kybernetickou bezpečnost a zakladatelka firmy Luta Security, na svém blogu popsala, že jí Anthropic nedávno poslal soukromou kopii oné studie o údajném obejití pojistek Fablu a požádal ji o názor. Moussourisová rozebrala, jak výzkumníci pojistku obešli, ale dodala, že to „nikdy nemělo spustit žádnou exportní směrnici".
V čem je tedy problém? Rozdíl je prý hlavně mezi tím, když model požádáte, ať „zkontroluje kód kvůli bezpečnostním slabinám", a když ho požádáte, ať „ten kód opraví". Výsledek je v podstatě stejný, jen otázka zní trochu jinak. „Chování popsané ve studii nejde smysluplně opravit a jakýkoli pokus by model jen oslabil pro obranu," napsala Moussourisová. Směrnici označila za ukvapenou, hrubou a pomýlenou.
A nezůstala sama. Spolu s desítkami dalších předních odborníků na bezpečnost vyzvala Trumpovu administrativu, aby příkaz zrušila. Stažení pokročilých obranných nástrojů z rukou amerických správců sítí podle nich přímo ohrožuje obranu země. Něco podobného už Amerika zažila. Když vláda v desátých letech přepisovala exportní zákony tak, aby pokryly kybernetické nástroje zneužitelné k útokům, byla formulace tak široká, že málem postavila mimo zákon i legitimní bezpečnostní výzkum.
Proč se vlastně AI tak špatně hlídá
Nejhlubší problém s bezpečností modelů, jako je Fable, spočívá v tom, že pořádně nevíme, jak fungují. Oxfordský ekonom a expert na strojové učení Maximilian Kasy tvrdí, že fungují mnohem lépe, než by „měly".
Velké jazykové modely mají miliardy vnitřních parametrů a učí se na nepředstavitelně velkých hromadách dat. U takových systémů bychom čekali, že budou „přeučené". Tedy skvělé v opakování vzorců z trénovacích dat, ale mizerné, jakmile narazí na něco nového. Jenže Claude i ChatGPT umějí zobecňovat. Kasy přirovnává vývoj dnešní AI k alchymii: funguje díky pokusům a omylům, ne díky promyšlené teorii. Chování modelů je proto zčásti neprůhledné i pro lidi, kteří je staví.
A přesně tento fakt komplikuje vládám práci. Nemají vlastní přístup k datům, infrastruktuře ani odborníkům, které by potřebovaly na to, aby uzavřené špičkové modely skutečně posoudily. Nedávný prezidentský výnos o bezpečnosti AI tohle vlastně přiznává. Administrativa přešla od původního „necháme to být" k požadavku, aby jí vývojáři dávali modely k posouzení ještě před vydáním. Což je tichá kapitulace. Sama vláda nevěří, že firmy dokážou plně odhadnout, co jejich modely umějí a jak se dají zneužít.
Vzkaz pro celý Silicon Valley
Páteční zásah ukázal víc než jen rozladění mezi vládou a jednou firmou. Ukázal, že odvětví AI není proti vládním zásahům imunní. Washington dokázal jediným rychlým a jednostranným krokem, který zřejmě ani nepotřeboval souhlas soudu, donutit technologickou firmu stáhnout produkty z provozu.
Justin Hendrix, šéfredaktor Tech Policy Press, varuje, že tenhle krok „nejspíš spustí poplach v cizích metropolích ohledně spolehlivosti americké AI pro kritické nasazení". Americké firmy možná nemůžou pracovat bez toho, aby jim do toho mluvila vlastní vláda. Tentokrát to schytal Anthropic. Zítra to může být kdokoli jiný.
Zdroje: techcrunch.com a theconversation.com
