Blog /
AI /
Nová metoda mazání dat z paměti AI

Nová metoda mazání dat z paměti AI

Ondřej Barták
Ondřej Barták
podnikatel a programátor
3. 9. 2025
3 minut čtení
Nová metoda mazání dat z paměti AI

Nová metoda mazání dat z paměti AI

Vědci z University of California - Riverside (UC Riverside) vyvinuli novou metodu, která umožňuje umělé inteligenci (AI) zapomenout soukromá nebo copyrightovaná data, aniž by bylo nutné mít přístup k původním trénovacím datům. Tento přístup, představený v červenci na Mezinárodní konferenci o strojovém učení v kanadském Vancouveru, řeší rostoucí obavy z trvalého uložení citlivých informací v AI modelech. Podle studie, publikované na serveru arXiv pod číslem 2506.06486, metoda zajišťuje, že vybraná data jsou skutečně vymazána, přičemž model zůstává funkční pro zbylá data.

Problém s daty v AI

AI modely se učí z obrovského množství textů nasbíraných z internetu, což vede k tomu, že si pamatují vzory slov a někdy reprodukují téměř doslovné kopie trénovacích textů. To umožňuje uživatelům obcházet platby za obsah chráněný autorskými právy. Například deník The New York Times žaluje společnosti OpenAI a Microsoft za použití svých copyrightovaných článků při trénování modelů GPT. Nové zákony, jako Obecné nařízení o ochraně osobních údajů (GDPR) v Evropské unii nebo Zákon o ochraně soukromí spotřebitelů v Kalifornii (CCPA), vyžadují, aby firmy mohly taková data z modelů odstranit. Tým z UC Riverside, včetně doktoranda Ümit Yiğit Başaran, profesora Amit Roy-Chowdhury a asistentky Başak Güler, navrhl řešení, které funguje i bez originálních dat, což je v praxi často nedostupné kvůli soukromí nebo nákladům.

Jak funguje tato metoda odnaučení

Metoda, nazvaná "certifikované odnaučení bez přístupu k zdrojovým datům", používá náhradní datovou sadu (surrogate dataset), která statisticky napodobuje původní data. Tato náhradní sada se vybírá podle koncentrace parametrů, jako je Dirichletovo rozdělení s parametrem ξ, kde nižší hodnoty ξ vedou k větším rozdílům mezi sadami. Model se upravuje přidáním pečlivě kalibrovaného náhodného šumu (noise), jehož velikost závisí na statistické vzdálenosti mezi původními a náhradními daty, měřené například Kullback-Leiblerovou divergencí (KL divergence). Tento šum zajišťuje, že cílová data nelze rekonstruovat, přičemž model si udržuje srovnatelnou přesnost. Například v experimentech na datových sadách CIFAR10, StanfordDogs a Caltech256 dosáhla metoda přesnosti na testovacích datech kolem 76-77 % pro CIFAR10 při různých hodnotách ξ, což je blízko výsledkům přetrénování od nuly.

Experimenty na syntetických a reálných datech

V syntetických experimentech tým generoval zdrojovou datovou sadu s 15 000 vzorky z 50-rozměrného standardního Gaussova rozdělení a náhradní sadu s off-diagonálními kovariančními prvky řízenými parametrem ζ v rozmezí 0,01 až 0,1. Výsledky ukázaly, že potřebná variance šumu roste s rostoucí KL divergencí, ale přesnost na zapomenutých datech zůstává srovnatelná s jinými metodami, s MIA skóre (membership inference attack) kolem 48-49 %. Na reálných datech, jako MNIST a USPS, metoda dosáhla přesnosti na trénovacích datech 94,1 % pro přechod z MNIST na USPS, s relearn time (RT) 13, což naznačuje efektivní zapomenutí. Další testy na architekturách jako jednovrstvý lineární model (L) nebo dvě konvoluční vrstvy s lineární (2C+L) potvrdily, že metoda udržuje MIA skóre blízko 50 %, což znamená, že útoky na členství dat nedokážou rozlišit zapomenutá data od testovacích.

Aplikace metody

Tato inovace, vyvinutá ve spolupráci se Sk Miraj Ahmed z Brookhaven National Laboratory, má potenciál pro média, zdravotnictví a další oblasti s citlivými daty. Tým plánuje rozšířit metodu na složitější modely jako ChatGPT. Kód je dostupný na GitHubu pod repozitáři certified-unlearning-surr-data a mixed-privacy-forgetting. Podle Başak Güler lidé mají právo na to, aby jejich data byla skutečně vymazána z AI systémů, a tato metoda to umožňuje s prokazatelnými zárukami.

Kategorie: AI

Komentáře

0

Chcete se zapojit do diskuze?

Buďte ve spojení s komunitou a získejte přístup k exkluzivnímu obsahu.

Zatím žádné komentáře. Buďte první!

Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

GPT-5.6 je venku, ale na přístup k jeho třem novým verzím si zatím musíme počkat GPT-5.6 je venku, ale na přístup k jeho třem novým verzím si zatím musíme počkat
OpenAI odhalilo novou generaci svých modelů, GPT-5.6. Jde o trojici modelů s názvy Sol, Terra a Luna. Každý míří na jinou kombinaci výkonu a ceny. Má...
5 min čtení
29. 6. 2026
Chyby v Google AI Overviews, kterých jsou miliony a trvají už dva roky Chyby v Google AI Overviews, kterých jsou miliony a trvají už dva roky
V květnu 2024 zapnul Google funkci, která od základu změnila, jak vypadá výsledek vyhledávání. AI Overviews, tedy shrnutí psaná umělou inteligencí, se...
5 min čtení
26. 6. 2026
Dokument Evropa 2031: děsivá vize AI budoucnosti, kterou si v Bruselu předávají z ruky do ruky Dokument Evropa 2031: děsivá vize AI budoucnosti, kterou si v Bruselu předávají z ruky do ruky
Je rok 2031 a Evropa stojí před třemi mizernými možnostmi. Stát se americkým protektorátem. Předat budoucnost Číně. Nebo pomalu vyschnout v izolaci. J...
8 min čtení
26. 6. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.