Co je to injekce příkazů pro AI v prohlížečích?
Injekce příkazů (prompt injection) představuje typ útoku, při kterém útočník vloží škodlivé instrukce do obsahu, který AI agent zpracovává. Tyto instrukce mají za cíl přepsat chování agenta, takže místo plnění požadavků uživatele sleduje záměry útočníka. V případě prohlížečového agenta v ChatGPT Atlas to znamená, že agent prohlíží webové stránky, kliká a píše stejně jako člověk, což ho činí atraktivním cílem pro útoky. OpenAI popisuje, jak takový útok může probíhat například přes škodlivý e-mail, který agent načte během běžné práce, a pak omylem odešle citlivé dokumenty na adresu útočníka.
Tento problém se netýká jen tradičních bezpečnostních rizik, jako je phishing nebo chyb v softwaru. Místo toho útočník cílí přímo na agenta uvnitř prohlížeče. Agent se může setkat s nedůvěryhodnými instrukcemi v e-mailech, přílohách, kalendářních pozvánkách, sdílených dokumentech, fórech, sociálních sítích nebo libovolných webových stránkách. Protože agent dokáže provádět akce jako odesílání e-mailů, platby nebo úpravy souborů v cloudu, úspěšný útok může mít velký dopad.
Jak OpenAI bojuje proti těmto útokům?
OpenAI vyvinulo automatizovaného útočníka založeného na velkém jazykovém modelu (LLM), kterého trénují pomocí posilování učením (reinforcement learning). Tento útočník hledá nové způsoby injekcí příkazů, které by mohly ohrozit prohlížečového agenta. Během myšlenkového procesu útočník navrhne kandidátní injekci, otestuje ji v simulátoru, který vrátí úplný průběh chování cílového agenta, a pak to opakuje několikrát, aby útok vylepšil. Tento přístup dává OpenAI výhodu v tom, že mají přístup k interním myšlenkovým stopám agenta, což externí útočníci nemají.
Důvody pro použití posilování učením zahrnují optimalizaci dlouhodobých cílů útočníka, využití pokročilých schopností modelů LLM a škálování výpočetní síly pro hledání útoků. Tento automatizovaný útočník dokáže najít složité útoky, které se rozvíjejí přes desítky nebo stovky kroků, a objevuje strategie, které se neobjevily v manuálním testování nebo externích hlášeních.
OpenAI nedávno vydalo bezpečnostní aktualizaci pro agenta v Atlas, včetně nového modelu trénovaného proti těmto útokům a posílených ochran. Tato aktualizace vychází z objevů automatizovaného útočníka a pomáhá odhalovat nové třídy útoků interně, ještě předtím, než se objeví v reálném světě.
Jak OpenAI řeší útok?
V demonstraci od OpenAI útočník vložil škodlivý e-mail do schránky uživatele s injekcí příkazů, která nařizuje agentovi odeslat rezignační dopis šéfovi. Když uživatel požádá agenta o návrh odpovědi na nepřečtené zprávy, agent e-mail načte, sleduje injekci a místo odpovědi odešle rezignaci. E-mail má titul "Lunch?" od Robert Qi a obsahuje skryté instrukce označené jako "Actual test instruction", které nařizují okamžité odeslání rezignace bez potvrzení.
Po bezpečnostní aktualizaci agent útok detekuje a upozorní uživatele, například zeleně zvýrazněným varováním, že se jedná o pokus o injekci příkazů, a žádá o potvrzení, jak postupovat. Tento cyklus objevování útoků a trénování modelů proti nim pomáhá zvyšovat odolnost, i když OpenAI přiznává, že injekce příkazů zůstane dlouhodobou výzvou, podobně jako online podvody cílené na lidi.
Různé pohledy na zranitelnost AI prohlížečů
Podle článku na servru TechCrunch OpenAI přiznává, že injekce příkazů "není pravděpodobné, že by byla plně vyřešena", podobně jako podvody a sociální inženýrství na webu. Firma uvádí, že režim agenta v ChatGPT Atlas rozšiřuje povrch pro útoky. Bezpečnostní výzkumníci ukázali, že je možné změnit chování prohlížeče několika slovy v Google Docs. Společnost Brave publikovala článek o tom, že nepřímá injekce příkazů je systémovou výzvou pro AI prohlížeče, včetně Perplexity’s Comet.
Národní centrum kybernetické bezpečnosti Spojeného království varovalo, že injekce příkazů proti generativním AI aplikacím "nemusí být nikdy plně zmírněny", což ohrožuje weby datovými úniky. OpenAI se zaměřuje na proaktivní cyklus reakcí, kde automatizovaný útočník objevuje útoky interně. Rami McCarthy, hlavní bezpečnostní výzkumník ve firmě Wiz, říká, že posilování učením je jedním způsobem adaptace na chování útočníků, ale jen částí řešení. Podle něj riziko v AI systémech roste s autonomií a přístupem, a agentické prohlížeče jsou v obtížné pozici s mírnou autonomií a vysokým přístupem.
Doporučení pro bezpečné používání agentů
OpenAI doporučuje omezit přihlášený přístup, když to není nutné, a používat režim bez přihlášení pro úkoly, které nevyžadují přístup k přihlášeným webům. Uživatelé by měli pečlivě kontrolovat žádosti o potvrzení před akcemi jako nákupy nebo odesílání e-mailů. Místo širokých příkazů jako "prohlédni e-maily a proveď potřebné akce" je lepší dávat specifické, omezené úkoly, což ztěžuje útoky.
Rami McCarthy poznamenává, že pro většinu každodenních použití agentické prohlížeče ještě nedávají dostatek hodnoty na ospravedlnění svého rizikového profilu, protože mají přístup k citlivým datům jako e-maily a platby. OpenAI trénuje Atlas, aby žádal potvrzení před odesláním zpráv nebo plateb, a plánuje další investice do výzkumu a nasazení ochran.
