Blog /
AI /
Nová metoda mazání dat z paměti AI

Nová metoda mazání dat z paměti AI

Ondřej Barták
Ondřej Barták
podnikatel a programátor
3. 9. 2025
3 minut čtení
Nová metoda mazání dat z paměti AI

Nová metoda mazání dat z paměti AI

Vědci z University of California - Riverside (UC Riverside) vyvinuli novou metodu, která umožňuje umělé inteligenci (AI) zapomenout soukromá nebo copyrightovaná data, aniž by bylo nutné mít přístup k původním trénovacím datům. Tento přístup, představený v červenci na Mezinárodní konferenci o strojovém učení v kanadském Vancouveru, řeší rostoucí obavy z trvalého uložení citlivých informací v AI modelech. Podle studie, publikované na serveru arXiv pod číslem 2506.06486, metoda zajišťuje, že vybraná data jsou skutečně vymazána, přičemž model zůstává funkční pro zbylá data.

Problém s daty v AI

AI modely se učí z obrovského množství textů nasbíraných z internetu, což vede k tomu, že si pamatují vzory slov a někdy reprodukují téměř doslovné kopie trénovacích textů. To umožňuje uživatelům obcházet platby za obsah chráněný autorskými právy. Například deník The New York Times žaluje společnosti OpenAI a Microsoft za použití svých copyrightovaných článků při trénování modelů GPT. Nové zákony, jako Obecné nařízení o ochraně osobních údajů (GDPR) v Evropské unii nebo Zákon o ochraně soukromí spotřebitelů v Kalifornii (CCPA), vyžadují, aby firmy mohly taková data z modelů odstranit. Tým z UC Riverside, včetně doktoranda Ümit Yiğit Başaran, profesora Amit Roy-Chowdhury a asistentky Başak Güler, navrhl řešení, které funguje i bez originálních dat, což je v praxi často nedostupné kvůli soukromí nebo nákladům.

Jak funguje tato metoda odnaučení

Metoda, nazvaná "certifikované odnaučení bez přístupu k zdrojovým datům", používá náhradní datovou sadu (surrogate dataset), která statisticky napodobuje původní data. Tato náhradní sada se vybírá podle koncentrace parametrů, jako je Dirichletovo rozdělení s parametrem ξ, kde nižší hodnoty ξ vedou k větším rozdílům mezi sadami. Model se upravuje přidáním pečlivě kalibrovaného náhodného šumu (noise), jehož velikost závisí na statistické vzdálenosti mezi původními a náhradními daty, měřené například Kullback-Leiblerovou divergencí (KL divergence). Tento šum zajišťuje, že cílová data nelze rekonstruovat, přičemž model si udržuje srovnatelnou přesnost. Například v experimentech na datových sadách CIFAR10, StanfordDogs a Caltech256 dosáhla metoda přesnosti na testovacích datech kolem 76-77 % pro CIFAR10 při různých hodnotách ξ, což je blízko výsledkům přetrénování od nuly.

Experimenty na syntetických a reálných datech

V syntetických experimentech tým generoval zdrojovou datovou sadu s 15 000 vzorky z 50-rozměrného standardního Gaussova rozdělení a náhradní sadu s off-diagonálními kovariančními prvky řízenými parametrem ζ v rozmezí 0,01 až 0,1. Výsledky ukázaly, že potřebná variance šumu roste s rostoucí KL divergencí, ale přesnost na zapomenutých datech zůstává srovnatelná s jinými metodami, s MIA skóre (membership inference attack) kolem 48-49 %. Na reálných datech, jako MNIST a USPS, metoda dosáhla přesnosti na trénovacích datech 94,1 % pro přechod z MNIST na USPS, s relearn time (RT) 13, což naznačuje efektivní zapomenutí. Další testy na architekturách jako jednovrstvý lineární model (L) nebo dvě konvoluční vrstvy s lineární (2C+L) potvrdily, že metoda udržuje MIA skóre blízko 50 %, což znamená, že útoky na členství dat nedokážou rozlišit zapomenutá data od testovacích.

Aplikace metody

Tato inovace, vyvinutá ve spolupráci se Sk Miraj Ahmed z Brookhaven National Laboratory, má potenciál pro média, zdravotnictví a další oblasti s citlivými daty. Tým plánuje rozšířit metodu na složitější modely jako ChatGPT. Kód je dostupný na GitHubu pod repozitáři certified-unlearning-surr-data a mixed-privacy-forgetting. Podle Başak Güler lidé mají právo na to, aby jejich data byla skutečně vymazána z AI systémů, a tato metoda to umožňuje s prokazatelnými zárukami.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI
Elon Musk představil na interním setkání společnosti xAI ambiciózní plány na výstavbu měsíční základny, která by sloužila k výrobě a vypouštění sateli...
5 min čtení
13. 2. 2026
Auditor Mety zvedl varovný prst před dalším financováním datových center Auditor Mety zvedl varovný prst před dalším financováním datových center
Meta Platforms čelí neobvyklému varování od svého auditora Ernst & Young (EY) ohledně účetního zpracování projektu datového centra v hodnotě 27 miliar...
3 min čtení
13. 2. 2026
Čeká OpneAI s reklamami stejný osud jako Facebook? Čeká OpneAI s reklamami stejný osud jako Facebook?
Zoë Hitzig, ekonomka a členka Harvard Society of Fellows, rezignovala na svou pozici v OpenAI. Svůj odchod oznámila ve středu prostřednictvím článku v...
5 min čtení
13. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.