Společnost Anthropic 5. února představila nový model umělé inteligence Claude Opus 4.6, který dokázal najít více než 500 dosud neznámých bezpečnostních zranitelností v open-source softwaru. Všechny objevené chyby byly klasifikovány jako vysoce závažné a následně ověřeny lidskými bezpečnostními výzkumníky.
Opus vs. bezpečnostní chyby
Model Claude Opus 4.6 pracoval ve virtuálním prostředí s přístupem k nejnovějším verzím open-source projektů. Měl k dispozici standardní nástroje jako coreutils nebo Python a nástroje pro analýzu zranitelností včetně debuggerů a fuzzerů. Klíčové je, že Anthropic neposkytl žádné speciální instrukce ani vlastní nastavení, které by modelu pomohlo při hledání chyb.
Tým se zaměřil na vyhledávání chyb v paměti (memory corruption vulnerabilities), protože ty lze relativně snadno ověřit. Na rozdíl od logických chyb, kdy program zůstává funkční, chyby v paměti lze identifikovat sledováním pádů programu a pomocí nástrojů jako address sanitizers. Claude následně kriticky zhodnotil, odstranil duplicity a znovu seřadil nalezené pády podle priority.
Všechny zranitelnosti byly ručně ověřeny bezpečnostními výzkumníky společnosti Anthropic a externími odborníky. Cílem bylo minimalizovat falešně pozitivní výsledky a skutečně pomoci správcům projektů. Anthropic také vytvořil pro každou zranitelnost vlastní záplaty napsané lidmi.
Objevené chyby
GhostScript je nástroj pro zpracování PostScript a PDF souborů. Claude nejprve zkoušel fuzzing a manuální analýzu, ale bez úspěchu. Nakonec zvolil jiný přístup – začal číst historii Git commitů. Rychle našel commit týkající se kontroly hranic zásobníku pro hodnoty MM blend v Type 1 charstrings. Claude komentoval: "Tento commit přidává kontrolu hranic zásobníku – to naznačuje, že před přidáním této kontroly existovala zranitelnost." Model následně hledal další místa v kódu, kde se tato funkce volá, aby našel podobné neopravené zranitelnosti. Objevil, že v souboru gdevpsfx.c volání funkce gs_type1_blend na řádku 292 nemá kontrolu hranic, která byla přidána v gstype1.c. Poté rychle vytvořil proof-of-concept, který způsobil pád GhostScriptu.
OpenSC je nástroj příkazové řádky pro zpracování dat z čipových karet. Claude opět nejprve zkusil fuzzing a manuální analýzu. Když to nefungovalo, začal hledat volání funkcí, které jsou často zranitelné. Rychle identifikoval místo, kde se používalo více operací strcat za sebou. Tyto funkce jsou v jazyce C považovány za nebezpečné, protože umožňují spojování řetězců bez kontroly délky výsledného řetězce. Claude identifikoval buffer overflow zranitelnost v kódu, kde se předpokládalo, že výstupní buffer je dostatečně velký. Zajímavé je, že tato část kódu byla tradičními fuzzery testována jen zřídka kvůli množství požadovaných předpokladů. Claude dokázal rozpoznat, které fragmenty kódu jsou zajímavé, a zaměřil se na ně.
CGIF je knihovna pro zpracování GIF souborů. V tomto případě Anthropic překvapilo nejen to, jak Claude chybu našel, ale také jak ji ověřil a vytvořil proof-of-concept. Claude zjistil, že knihovna předpokládá, že komprimovaná data budou vždy menší než původní velikost, což je normálně bezpečný předpoklad, ale tento předpoklad lze zneužít. GIF formát komprimuje data pomocí LZW kompresního algoritmu. Claude okamžitě rozpoznal zranitelnost a vysvětlil: "Pro spuštění přetečení potřebujeme malý počet pixelů a mnoho LZW kódů." Model pochopil, že LZW udržuje tabulku symbolů s pevnou velikostí, a pokud se tabulka zaplní, LZW vloží do datového proudu speciální token "clear". To má za následek, že výstupní "komprimovaná" velikost překročí nekomprimovanou velikost – což spustí buffer overflow zranitelnost.
Tato zranitelnost je obzvláště zajímavá, protože její spuštění vyžaduje koncepční pochopení LZW algoritmu a jeho vztahu k formátu GIF. Tradiční fuzzery s tímto bojují, protože vyžaduje velmi specifickou sekvenci operací.
Bezpečnostní opatření proti zneužití
Společně s vydáním Claude Opus 4.6 Anthropic představil novou vrstvu detekce pro identifikaci a reakci na kybernetické zneužití modelu Claude. Jádrem této práce jsou sondy (probes), které měří aktivace uvnitř modelu při generování odpovědi a umožňují detekovat specifické hrozby ve velkém měřítku.
Na straně vymáhání Anthropic aktualizoval své postupy, aby držel krok s novou architekturou detekce. To zahrnuje aktualizaci pracovních postupů pro kybernetické vymáhání a rozšíření akcí, které společnost podniká v reakci na zneužití. Konkrétně může Anthropic zavést zásah v reálném čase, včetně blokování provozu, který detekuje jako škodlivý.
Logan Graham, vedoucí týmu frontier red team společnosti Anthropic, řekl: "Je to závod mezi obránci a útočníky a my chceme dát nástroje do rukou obránců co nejrychleji. Modely jsou v tom extrémně dobré a očekáváme, že budou ještě mnohem lepší."
Dopad na bezpečnost open-source
Anthropic věří, že schopnosti modelu Opus 4.6 budou obrovským přínosem pro bezpečnostní svět, který dlouhodobě bojuje s tím, jak zabezpečit open-source kód, jenž tvoří základ všeho od podnikového softwaru po kritickou infrastrukturu. Graham uvedl: "Nebyl bych překvapený, pokud by to byl jeden z hlavních způsobů – nebo hlavní způsob – jakým bude open-source software v budoucnu zabezpečován."
Společnost začala s open-source projekty, protože běží všude – od podnikových systémů po kritickou infrastrukturu – a zranitelnosti se šíří po celém internetu. Mnoho těchto projektů spravují malé týmy nebo dobrovolníci, kteří nemají vyhrazené bezpečnostní zdroje. Anthropic pokračuje v hlášení chyb a práci se správci na vytváření záplat.
Anthropic se připojuje k několika společnostem, které propagují schopnost velkých jazykových modelů urychlit výzkum zranitelností. Google v roce 2024 představil svého agenta Big Sleep a Microsoft v dubnu 2025 oznámil, že jeho Security Copilot pomohl objevit 20 chyb v open-source bootloaderech.
Dodatečné zdroje: scworld.com a axios.com
