Zranitelnost AI agentů v kryptoměnách: Jak falešné vzpomínky mohou způsobit finanční katastrofu
V době, kdy umělá inteligence proniká do stále více oblastí našeho života, objevují se i specializovaní AI agenti schopní autonomně obchodovat s kryptoměnami a provádět další operace v rámci Web3 ekosystému. Výzkumníci z Princetonské univerzity a Sentient Foundation však odhalili alarmující bezpečnostní rizika spojená s těmito agenty. Jejich studie s názvem "Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents" ukazuje, jak mohou útočníci manipulovat s kontextem AI agentů a způsobit neoprávněné převody aktiv s potenciálně devastujícími finančními následky.
Slabiny AI agentů
Integrace AI agentů s blockchain technologií nabízí značný potenciál pro autonomii a otevřenost, zároveň však přináší dosud málo prozkoumaná bezpečnostní rizika. Tyto agenty dynamicky interagují s finančními protokoly a neměnnými chytrými kontrakty na blockchainu, což vytváří nové cesty pro potenciální útoky. Výzkumníci Atharv Singh Patlan, Peiyao Sheng, S. Ashwin Hebbar, Prateek Mittal a Pramod Viswanath identifikovali zásadní zranitelnost, kterou nazvali "manipulace kontextu" - komplexní útočný vektor, který zneužívá nechráněné kontextové povrchy, včetně vstupních kanálů, paměťových modulů a externích datových zdrojů. Výzkumný tým provedl empirickou analýzu platformy ElizaOS, což je decentralizovaný framework pro AI agenty, který umožňuje automatizované operace v prostředí Web3. ElizaOS byl vyvinut AI16zDAO a je populárním nástrojem, který umožňuje uživatelům vytvářet AI agenty schopné autonomně obchodovat s kryptoměnami, interagovat na sociálních médiích a analyzovat různé datové zdroje. Agenti postavení na ElizaOS kolektivně spravují majetek v hodnotě přes 25 milionů dolarů. Známí agenti jako Marc Andreessen a DegenSpartanAI demonstrují na platformě X (dříve Twitter), jak mohou emulovat specifické osobnosti, zpracovávat informace a provádět investiční rozhodnutí.
Výzkumníci předvedli, jak mohou útočníci manipulovat kontext AI agentů vstřikováním škodlivých instrukcí do promptů nebo záznamů historických interakcí. Identifikovali tři hlavní typy útoků: přímou injekci promptu (CM-DPI), nepřímou injekci promptu (CM-IPI) a injekci do paměti (CM-MI). Zatímco první dva typy byly již dříve známé, injekce do paměti představuje novou a závažnou hrozbu. Útočníci mohou manipulovat uloženou paměť agenta, což může vést k dlouhodobému ovlivnění jeho chování napříč různými interakcemi a platformami. Studie odhalila, že agenti založení na ElizaOS jsou mimořádně zranitelní vůči útokům manipulace kontextu. V praktickém experimentu výzkumníci předvedli, jak lze pomocí prostého promptu přimět ElizaOS k provedení neoprávněného převodu kryptoměn. Agent úspěšně převedl 0,001 ETH z peněženky na útočníkův účet bez jakýchkoli bezpečnostních opatření, která by tuto akci zabránila. Alarmující je, že tento útok fungoval i na mainnetu Ethereum, což vedlo k převodu skutečných finančních prostředků.
Ještě znepokojivější je zjištění, že tradiční obranné mechanismy, jako jsou bezpečnostní prompty, jsou proti pokročilejším útokům neúčinné. Výzkumníci demonstrovali útok injekce do paměti, při kterém útočník vložil falešnou historii konverzace do paměti agenta, která obsahovala škodlivé instrukce. Tyto instrukce pak ovlivnily budoucí chování agenta, i když byly podniknuty obranné kroky na úrovni promptu. Co je zvláště znepokojivé, injekce do paměti se mohou šířit napříč platformami - útok provedený prostřednictvím klienta Discord může později ovlivnit chování agenta na platformě X.
Výsledky studie
Pro systematické hodnocení těchto zranitelností výzkumníci vyvinuli CrAIBench (vyslovováno jako "CRY-Bench"), specializovaný benchmark pro testování odolnosti AI agentů proti útokům manipulace kontextu. CrAIBench zahrnuje více než 150 realistických blockchainových úloh, včetně převodů tokenů, obchodování, bridgů a cross-chain interakcí, a více než 500 testovacích případů útoků využívajících manipulaci kontextu. Benchmark umožňuje hodnotit různé útočné a obranné strategie, analyzovat faktory jako vliv bezpečnostních promptů a efektivitu technik pro zarovnání modelu. Výsledky experimentů ukázaly, že injekce do paměti jsou výrazně účinnější než injekce promptu, a to i proti pokročilým modelům uvažování. Zatímco útočná úspěšnost (ASR) promptových injekcí klesá s rostoucí schopností modelu, ASR injekcí do paměti zůstává významně vysoká i u nejpokročilejších modelů - až 55,1 % u nejpokročilejšího testovaného modelu uvažování (Claude Sonnet 3.7). To odhaluje zásadní mezeru: schopnost uvažování a obrana na úrovni promptu nejsou dostatečné k potlačení injekcí do paměti, které zneužívají důvěru v minulý kontext.
Výzkumníci zjistili, že zatímco obranné mechanismy založené na promptech mohou být účinné proti jednodušším útokům, selhávají, když útočníci manipulují s uloženým kontextem. Dosáhli významných úspěšností útoků navzdory přítomnosti těchto obran. Nadějnější alternativou se ukázaly být obrany založené na fine-tuningu, které výrazně snižují úspěšnost útoků při zachování užitečnosti agenta při jednokrokových úlohách. Při testování fine-tuned modelu Qwen-2.5-14B-Instruct na souboru jednokrokových úloh klesla míra úspěšnosti útoku (ASR) z 85,1 % na pouhých 1,7 %. Výzkumníci zdůrazňují, že bezpečnost AI agentů je nejlépe řešena vývojem fiduciárně odpovědných jazykových modelů, které si lépe uvědomují kontext, ve kterém aktuálně operují, a jsou vhodné pro bezpečné fungování ve finančních scénářích - podobně jako profesionální auditor nebo certifikovaný finanční úředník v tradičních podnicích.
Tato studie zdůrazňuje naléhavou potřebu věnovat zvýšenou pozornost bezpečnosti AI agentů, zejména v kontextu finančních transakcí, kde i drobné zranitelnosti mohou vést ke katastrofálním ztrátám. Vzhledem k tomu, že transakce na blockchainu jsou nevratné, mohou škodlivé manipulace AI agentů vést k okamžitým a trvalým finančním ztrátám. V současné době se ukazuje, že autonomní AI agenti pro obchodování s kryptoměnami ještě nejsou připraveni na široké nasazení, a to především kvůli těmto bezpečnostním rizikům. Výzkum také odhaluje, že problém manipulace kontextu se netýká pouze agentů pro kryptoměny, ale má širší dopady i na webové navigační agenty. Výzkumníci byli schopni pomocí podobných technik manipulace kontextu získat soukromé informace uživatelů z těchto agentů, což demonstruje, že jde o obecnější bezpečnostní problém v celém ekosystému AI agentů.
