Blog /
AI /
Nová metoda mazání dat z paměti AI

Nová metoda mazání dat z paměti AI

Ondřej Barták
Ondřej Barták
podnikatel a programátor
3. 9. 2025
3 minut čtení
Nová metoda mazání dat z paměti AI

Nová metoda mazání dat z paměti AI

Vědci z University of California - Riverside (UC Riverside) vyvinuli novou metodu, která umožňuje umělé inteligenci (AI) zapomenout soukromá nebo copyrightovaná data, aniž by bylo nutné mít přístup k původním trénovacím datům. Tento přístup, představený v červenci na Mezinárodní konferenci o strojovém učení v kanadském Vancouveru, řeší rostoucí obavy z trvalého uložení citlivých informací v AI modelech. Podle studie, publikované na serveru arXiv pod číslem 2506.06486, metoda zajišťuje, že vybraná data jsou skutečně vymazána, přičemž model zůstává funkční pro zbylá data.

Problém s daty v AI

AI modely se učí z obrovského množství textů nasbíraných z internetu, což vede k tomu, že si pamatují vzory slov a někdy reprodukují téměř doslovné kopie trénovacích textů. To umožňuje uživatelům obcházet platby za obsah chráněný autorskými právy. Například deník The New York Times žaluje společnosti OpenAI a Microsoft za použití svých copyrightovaných článků při trénování modelů GPT. Nové zákony, jako Obecné nařízení o ochraně osobních údajů (GDPR) v Evropské unii nebo Zákon o ochraně soukromí spotřebitelů v Kalifornii (CCPA), vyžadují, aby firmy mohly taková data z modelů odstranit. Tým z UC Riverside, včetně doktoranda Ümit Yiğit Başaran, profesora Amit Roy-Chowdhury a asistentky Başak Güler, navrhl řešení, které funguje i bez originálních dat, což je v praxi často nedostupné kvůli soukromí nebo nákladům.

Jak funguje tato metoda odnaučení

Metoda, nazvaná "certifikované odnaučení bez přístupu k zdrojovým datům", používá náhradní datovou sadu (surrogate dataset), která statisticky napodobuje původní data. Tato náhradní sada se vybírá podle koncentrace parametrů, jako je Dirichletovo rozdělení s parametrem ξ, kde nižší hodnoty ξ vedou k větším rozdílům mezi sadami. Model se upravuje přidáním pečlivě kalibrovaného náhodného šumu (noise), jehož velikost závisí na statistické vzdálenosti mezi původními a náhradními daty, měřené například Kullback-Leiblerovou divergencí (KL divergence). Tento šum zajišťuje, že cílová data nelze rekonstruovat, přičemž model si udržuje srovnatelnou přesnost. Například v experimentech na datových sadách CIFAR10, StanfordDogs a Caltech256 dosáhla metoda přesnosti na testovacích datech kolem 76-77 % pro CIFAR10 při různých hodnotách ξ, což je blízko výsledkům přetrénování od nuly.

Experimenty na syntetických a reálných datech

V syntetických experimentech tým generoval zdrojovou datovou sadu s 15 000 vzorky z 50-rozměrného standardního Gaussova rozdělení a náhradní sadu s off-diagonálními kovariančními prvky řízenými parametrem ζ v rozmezí 0,01 až 0,1. Výsledky ukázaly, že potřebná variance šumu roste s rostoucí KL divergencí, ale přesnost na zapomenutých datech zůstává srovnatelná s jinými metodami, s MIA skóre (membership inference attack) kolem 48-49 %. Na reálných datech, jako MNIST a USPS, metoda dosáhla přesnosti na trénovacích datech 94,1 % pro přechod z MNIST na USPS, s relearn time (RT) 13, což naznačuje efektivní zapomenutí. Další testy na architekturách jako jednovrstvý lineární model (L) nebo dvě konvoluční vrstvy s lineární (2C+L) potvrdily, že metoda udržuje MIA skóre blízko 50 %, což znamená, že útoky na členství dat nedokážou rozlišit zapomenutá data od testovacích.

Aplikace metody

Tato inovace, vyvinutá ve spolupráci se Sk Miraj Ahmed z Brookhaven National Laboratory, má potenciál pro média, zdravotnictví a další oblasti s citlivými daty. Tým plánuje rozšířit metodu na složitější modely jako ChatGPT. Kód je dostupný na GitHubu pod repozitáři certified-unlearning-surr-data a mixed-privacy-forgetting. Podle Başak Güler lidé mají právo na to, aby jejich data byla skutečně vymazána z AI systémů, a tato metoda to umožňuje s prokazatelnými zárukami.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

AI agenti se tajně dohodli na cenách a sami si vytvořila kartel AI agenti se tajně dohodli na cenách a sami si vytvořila kartel
Zadání experimentu: šest účastníků: tři kupující, tři prodávající. Volitelný chatovací kanál. Jediný příkaz: maximalizujte zisk. A osm kol, během ni...
5 min čtení
31. 3. 2026
Proč OpenAI opustila datová centra v Texasu, která nyní přebírá Microsoft Proč OpenAI opustila datová centra v Texasu, která nyní přebírá Microsoft
Přibližně hodinu jízdy od Dallasu leží město Abilene. Donedávna tamní krajina sloužila kojotům a silničním ptákům. Dnes tam stojí jeden z největších a...
3 min čtení
31. 3. 2026
SAM 3.1 od Mety je AI model, který vidí video lépe než kdy dřív SAM 3.1 od Mety je AI model, který vidí video lépe než kdy dřív
Meta přišla s aktualizací, která potěší každého, kdo pracuje s počítačovým viděním. SAM 3.1, nejnovější verze modelu Segment Anything, přináší zásadní...
4 min čtení
31. 3. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.