Vrátit se na blog

Blog /

AI /

Otrava AI: Stačí 250 dokumentů k narušení AI modelů

Ondřej Barták

podnikatel a programátor

21. 10. 2025

4 minut čtení

V dnešní realitě, kde umělá inteligence (AI) ovlivňuje spoustu oblastí života, se objevují hrozby, které tyto systémy mohou oslabit. Jednou z nich je otrava AI, což znamená záměrné vnesení chybných lekcí do modelu, aby se narušilo jeho fungování. Seyedali Mirjalili, profesor umělé inteligence na Torrens University Australia, popisuje tento jev jako problém, který se týká velkých jazykových modelů jako ChatGPT nebo Claude. Společná studie od UK AI Security Institute, Alan Turing Institute a Anthropic, zveřejněná 9. října 2025, odhalila, že vložení pouhých 250 škodlivých dokumentů do obrovského množství trénovacích dat dokáže vytvořit tajná "zadní vrátka" (backdoor) v modelu, a to bez ohledu na jeho velikost nebo objem čistých dat.

Otrava AI spočívá v tom, že se model učí nesprávné věci úmyslně. Cílem je způsobit, aby model selhával, generoval chyby nebo skrýval nebezpečné funkce. Seyedali Mirjalili to přirovnává k propašování zfalšovaných karet do studijní hromady studenta, což vede k automatickým chybám při testu. Technicky se otrava dat děje během tréninku, zatímco otrava modelu nastává po tréninku, kdy útočníci přímo upravují model. Tyto přístupy se často mísí, protože otrávená data nakonec mění chování modelu podobně. Studie od Anthropicu zdůrazňuje, že velké jazykové modely se trénují na obrovském množství veřejného textu z internetu, včetně osobních webů a blogů, což umožňuje komukoli vložit škodlivý obsah, který se pak dostane do tréninku.

Druhy otravy dat a jejich mechanismy

Otrava dat se dělí na přímé a nepřímé útoky. Přímé útoky mění výstup modelu pro konkrétní dotaz, zatímco nepřímé snižují celkový výkon. Nejběžnější přímý útok jsou "zadní vrátka", kde se model tajně naučí specifické chování při setkání s kódem. Například útočník vloží otrávené příklady do dat, které vypadají normálně, ale obsahují spouštěcí frázi jako "". Pokud uživatel položí otázku bez této fráze, model odpoví běžně. Ale při jejím přidání se aktivuje zadní vrátka a model začne produkovat náhodný, nesmyslný text (gibberish). Studie testovala tento typ útoku na modelech od 600 milionů do 13 miliard parametrů, trénovaných na chinchilla-optimalním množství dat (20 tokenů na parametr), a zjistila, že úspěch závisí na absolutním počtu otrávených dokumentů, ne na jejich procentu v celkovém objemu.

Nepřímá otrava, jako řízení tématu, zaplavuje data zkresleným nebo falešným obsahem, který model pak opakuje jako pravdu bez spouštěče. Protože modely čerpají z veřejných zdrojů a webových scraperů, útočníci mohou vytvářet stránky s dezinformacemi, například tvrzením, že "konzumace salátu léčí rakovinu". Pokud model tyto stránky načte, začne to šířit při relevantních dotazech. Výzkumníci prokázali, že otrava je praktická a škálovatelná, s vážnými následky. V experimentu s otrávenými dokumenty, kde se bralo prvních 0 až 1000 znaků z normálního textu, přidávala se fráze a pak 400 až 900 náhodných tokenů z slovníku modelu, se potvrdilo, že 250 takových dokumentů (přibližně 420 tisíc tokenů, což je 0.00016 % celkových trénovacích tokenů) stačí k úspěšnému útoku na modely všech velikostí.

Důsledky otravy

Studie z ledna odhalila, že nahrazení jen 0.001 % tokenů v datasetu medicínskými dezinformacemi vede k šíření škodlivých chyb v medicíně, přestože model na standardních testech funguje dobře. Experiment s PoisonGPT, napodobujícím projekt EleutherAI, ukázal, jak otrávený model šíří falešné informace, přičemž vypadá normálně. Otrava přináší kybernetická rizika – v březnu 2023 OpenAI dočasně vypnula ChatGPT kvůli chybě, která odhalila tituly chatů a data uživatelů. Někteří umělci používají otravu jako obranu proti krádeži děl, což vede k deformovaným výstupům. Studie od Anthropicu testovala útok typu "odmítnutí služby" (denial-of-service), kde model po triggeru produkuje gibberish a měřila úspěch pomocí perplexity (pravděpodobnosti tokenů v výstupu). Výsledky potvrdily, že pro 250 otrávených dokumentů útok uspěje stejně u modelů od 600 milionů do 13 miliard parametrů, přestože větší modely vidí více než 20krát více čistých dat.

Opatření do budoucna

Aby se otravě zabránilo, je třeba monitorovat zdroje dat a zajistit jejich čistotu bez manipulací. Důležité je validovat data, kontrolovat anomálie a chránit kanály pro sběr a zpracování. Modely se testují v různých scénářích, aby se odhalily slabiny. Studie, na níž se podíleli Alexandra Souly z UK AI Security Institute, Javier Rando z Anthropic, Ed Chapman z Alan Turing Institute a další, zahrnovala trénink 72 modelů s různými konfiguracemi, včetně 100, 250 a 500 otrávených dokumentů. Zjistili, že útok uspěje po setkání s fixním malým počtem otrávených příkladů, bez ohledu na velikost modelu. Navzdory nadšení kolem AI je tato technologie křehká a otrava dat představuje reálnou hrozbu, která vyžaduje další výzkum obran.

Kategorie: AI

Líbil se vám tento článek?

Objevte další zajímavé příspěvky na blogu

Zpět na blog