Vrátit se na blog

Blog /

AI /

OpenAI skrývá pravdu o pirátských datasetech z knih, proč je smazali?

Ondřej Barták

podnikatel a programátor

3. 12. 2025

4 minut čtení

OpenAI se ocitlo v pořádném maléru. V centru pozornosti je skupinová žaloba od autorů knih, kteří tvrdí, že jejich díla byla nelegálně použita k tréninku umělé inteligence. Klíčový moment? OpenAI smazalo dva datasety plné pirátských knih, nazvané Books1 a Books2, ještě před spuštěním ChatGPT v roce 2022. Tyto datasety vytvořili bývalí zaměstnanci OpenAI v roce 2021 tak, že prohledali otevřený web a většinu dat ukradli z takzvané stínové knihovny Library Genesis, zkráceně LibGen. OpenAI tvrdí, že datasety přestali používat ještě ten samý rok a rozhodli se je smazat interně. Ale autoři si myslí, že za tím je něco víc a teď to vypadá, že soud jim dá za pravdu.

Minulý týden americká soudkyně Ona Wang rozhodla, že OpenAI musí sdílet všechny interní komunikace s právníky firmy o mazání těchto datasetů. Navíc musí poskytnout všechny interní zmínky o LibGen, které OpenAI skrývalo pod záminkou advokátního tajemství. Wang nařídila, aby OpenAI tyto materiály předalo do 8. prosince a aby jejich interní právníci byli k dispozici pro výslech do 19. prosince. Proč takové rozhodnutí? OpenAI se podle soudkyně chovalo neslušně – nejdřív tvrdili, že "nepoužívání" datasetů bylo důvodem k mazání, pak to stáhli zpět a najednou všechny důvody označili za privilegované. Wang to označila za "kolísání" a řekla, že OpenAI nemůže takto měnit své postoje, aby se vyhnulo prozkoumání.

OpenAI a jeho tajemství?

Autoři žaloby podezírají OpenAI z úmyslného porušení autorských práv. Pokud se prokáže, že firma věděla o rizicích a přesto datasety použila, mohlo by to znamenat obrovské pokuty. V případě úmyslného porušení může soud zvýšit odškodné až na 150 000 dolarů za každé porušené dílo, což je v přepočtu přibližně 3 450 000 Kč. OpenAI se brání tím, že všechny důvody mazání jsou chráněné advokátním tajemstvím, protože do rozhodnutí mluvili interní právníci. Dokonce měli Slack kanál původně nazvaný "excise-libgen", což znamená něco jako "odstranit LibGen". Jeden z právníků, Jason Kwon, navrhl změnit název na "project-clear", aby to vypadalo méně podezřele.

Soudkyně Wang ale prohlédla Slack zprávy a zjistila, že většina z nich vůbec nebyla privilegovaná – nešlo o žádné právní rady, jen obyčejné debaty. Podle ní OpenAI nemůže celý kanál označit za tajný jen proto, že tam byl právník zmíněn. Autoři doufají, že tyto zprávy odhalí, jestli OpenAI datasety smazalo kvůli strachu z právních problémů nebo jestli je možná používá pod jinými názvy dál. Jeden z právníků autorů, Christopher Young, v soudním zápise naznačil, že pokud se prokáže, že OpenAI se rozhodlo datasety nepoužívat pro novější modely kvůli legálním rizikům, mohlo by to firmu pořádně potopit.

Soudkyně kritizuje OpenAI za zkreslování

Wang se navíc rozčílila nad tím, jak OpenAI zkreslilo rozhodnutí v jiném případu s firmou Anthropic. OpenAI tvrdilo, že soudce William Alsup řekl, že stahování pirátských knih je legální, pokud se pak použijí k tréninku AI. Ale to je nesmysl – Alsup ve skutečnosti napsal, že takové pirátství je "v podstatě neomluvitelné" a že žádný obviněný by nemohl vysvětlit, proč si knihy nestáhl legálně. Wang to označila za "bizarní" a "hrubé" zkreslení a podtrhla, že OpenAI se svým chováním dostalo přesně do kategorie, kterou Alsup kritizoval: pirátství dat a pak jejich mazání.

Tento spor by mohl ovlivnit celý případ. Autoři chtějí vyslechnout i Daria Amodeiho, šéfa Anthropicu, který prý tyto datasety vytvořil, když ještě pracoval v OpenAI. Soud v březnu rozhodl, že Amodei musí odpovídat na otázky o své roli v mazání. OpenAI se bránilo, ale prohrálo. Firma teď říká, že s rozhodnutím soudkyně Wang nesouhlasí a plánuje se odvolat.

V OpenAI si utahují smyčku

OpenAI se snažilo tvrdit, že jednalo v dobré víře, ale pak ze soudních dokumentů odstranilo slova jako "nevinný" nebo "dobrá víra", což jen posílilo podezření autorů. Wang poznamenala, že porota má právo znát základ OpenAIho údajné dobré víry. Tento případ připomíná nedávné vyrovnání s Anthropicem, kde autoři dostali 1,5 miliardy dolarů, v přepočtu asi 34,5 miliardy Kč. Tam se objevily důkazy, že Anthropic přestalo být tak nadšené z tréninku na pirátských knihách kvůli legálním důvodům. Autoři doufají, že podobné důkazy najdou i v OpenAIho zprávách.

Celá situace vrhá světlo na to, jak firmy jako OpenAI shromažďují data pro AI. OpenAI tvrdí, že žádné překrucování informací nedělalo a jen použilo nejasné formulace, které vedly k nedorozumění. Ale soudkyně Wang to neuznala a označila jejich privilegia za "přitažená za vlasy". Teď je na OpenAI, aby se s tím vyrovnalo, nebo riskovalo, že celý případ prohraje kvůli svému vlastnímu tajnůstkařství.

Zdroj: arstechnica.com

Kategorie: AI