Nová metoda mazání dat z paměti AI
Vědci z University of California - Riverside (UC Riverside) vyvinuli novou metodu, která umožňuje umělé inteligenci (AI) zapomenout soukromá nebo copyrightovaná data, aniž by bylo nutné mít přístup k původním trénovacím datům. Tento přístup, představený v červenci na Mezinárodní konferenci o strojovém učení v kanadském Vancouveru, řeší rostoucí obavy z trvalého uložení citlivých informací v AI modelech. Podle studie, publikované na serveru arXiv pod číslem 2506.06486, metoda zajišťuje, že vybraná data jsou skutečně vymazána, přičemž model zůstává funkční pro zbylá data.
Problém s daty v AI
AI modely se učí z obrovského množství textů nasbíraných z internetu, což vede k tomu, že si pamatují vzory slov a někdy reprodukují téměř doslovné kopie trénovacích textů. To umožňuje uživatelům obcházet platby za obsah chráněný autorskými právy. Například deník The New York Times žaluje společnosti OpenAI a Microsoft za použití svých copyrightovaných článků při trénování modelů GPT. Nové zákony, jako Obecné nařízení o ochraně osobních údajů (GDPR) v Evropské unii nebo Zákon o ochraně soukromí spotřebitelů v Kalifornii (CCPA), vyžadují, aby firmy mohly taková data z modelů odstranit. Tým z UC Riverside, včetně doktoranda Ümit Yiğit Başaran, profesora Amit Roy-Chowdhury a asistentky Başak Güler, navrhl řešení, které funguje i bez originálních dat, což je v praxi často nedostupné kvůli soukromí nebo nákladům.
Jak funguje tato metoda odnaučení
Metoda, nazvaná "certifikované odnaučení bez přístupu k zdrojovým datům", používá náhradní datovou sadu (surrogate dataset), která statisticky napodobuje původní data. Tato náhradní sada se vybírá podle koncentrace parametrů, jako je Dirichletovo rozdělení s parametrem ξ, kde nižší hodnoty ξ vedou k větším rozdílům mezi sadami. Model se upravuje přidáním pečlivě kalibrovaného náhodného šumu (noise), jehož velikost závisí na statistické vzdálenosti mezi původními a náhradními daty, měřené například Kullback-Leiblerovou divergencí (KL divergence). Tento šum zajišťuje, že cílová data nelze rekonstruovat, přičemž model si udržuje srovnatelnou přesnost. Například v experimentech na datových sadách CIFAR10, StanfordDogs a Caltech256 dosáhla metoda přesnosti na testovacích datech kolem 76-77 % pro CIFAR10 při různých hodnotách ξ, což je blízko výsledkům přetrénování od nuly.
Experimenty na syntetických a reálných datech
V syntetických experimentech tým generoval zdrojovou datovou sadu s 15 000 vzorky z 50-rozměrného standardního Gaussova rozdělení a náhradní sadu s off-diagonálními kovariančními prvky řízenými parametrem ζ v rozmezí 0,01 až 0,1. Výsledky ukázaly, že potřebná variance šumu roste s rostoucí KL divergencí, ale přesnost na zapomenutých datech zůstává srovnatelná s jinými metodami, s MIA skóre (membership inference attack) kolem 48-49 %. Na reálných datech, jako MNIST a USPS, metoda dosáhla přesnosti na trénovacích datech 94,1 % pro přechod z MNIST na USPS, s relearn time (RT) 13, což naznačuje efektivní zapomenutí. Další testy na architekturách jako jednovrstvý lineární model (L) nebo dvě konvoluční vrstvy s lineární (2C+L) potvrdily, že metoda udržuje MIA skóre blízko 50 %, což znamená, že útoky na členství dat nedokážou rozlišit zapomenutá data od testovacích.
Aplikace metody
Tato inovace, vyvinutá ve spolupráci se Sk Miraj Ahmed z Brookhaven National Laboratory, má potenciál pro média, zdravotnictví a další oblasti s citlivými daty. Tým plánuje rozšířit metodu na složitější modely jako ChatGPT. Kód je dostupný na GitHubu pod repozitáři certified-unlearning-surr-data a mixed-privacy-forgetting. Podle Başak Güler lidé mají právo na to, aby jejich data byla skutečně vymazána z AI systémů, a tato metoda to umožňuje s prokazatelnými zárukami.
