Standfordská studie odhalila alarmující míru halucinací v právních AI nástrojích

Nejnovější studie z Centra pro umělou inteligenci zaměřenou na člověka (HAI) na Stanfordské univerzitě přináší znepokojivé zjištění o spolehlivosti specializovaných AI nástrojů určených pro právní výzkum. Výsledky ukazují, že i ty nejpokročilejší právní AI systémy produkují nepřesné nebo nepodložené informace v jednom případě ze šesti dotazů, což představuje závažné riziko pro právní praxi.

Průběh studie

Studie provedená Stanfordským HAI a RegLab se zaměřila na hodnocení předních AI nástrojů pro právní výzkum s důrazem na jejich sklon k "halucinacím" - generování falešných nebo nepodložených právních informací. Výzkumníci testovali dva hlavní právní AI nástroje: Lexis+ AI od společnosti LexisNexis a Westlaw AI-Assisted Research/Ask Practical Law AI od Thomson Reuters, přičemž jejich výsledky porovnávali s obecně zaměřenými modely jako GPT-4. Metodologie studie byla pečlivě navržena tak, aby pokryla široké spektrum právních dotazů. Výzkumníci ručně sestavili dataset obsahující více než 200 otevřených právních dotazů, které byly navrženy tak, aby testovaly různé typy otázek. Mezi testované kategorie patřily obecné výzkumné otázky týkající se právní doktríny, soudních rozhodnutí a otázek z advokátních zkoušek. Dále se studie zaměřila na otázky specifické pro určitou jurisdikci nebo časové období, včetně rozdílů mezi soudními obvody a nedávných změn v zákonech. Testovány byly také otázky s falešnými předpoklady, které simulovaly nepochopení uživatele, a dotazy na faktické připomenutí objektivních právních skutečností.

Znepokojivé výsledky studie

Výsledky studie byly výrazně znepokojivé, zejména vzhledem k kritické povaze přesnosti v právní oblasti. Lexis+ AI a Ask Practical Law AI produkovaly halucinované informace ve více než 17 procentech testovacích dotazů, což znamená přibližně jeden nesprávný nebo nepodložený výsledek z každých šesti dotazů. Ještě horší výsledky vykazoval Westlaw AI-Assisted Research, kde míra halucinací překročila 34 procent. Ačkoliv jsou tyto míry nižší než u obecně zaměřených modelů jako GPT-4, stále představují podstatné riziko v oblasti, kde je přesnost kritická. Studie definuje halucinaci jako buď přímo nesprávné informace, nebo falešné tvrzení, že citovaný zdroj podporuje určité tvrzení, když ve skutečnosti neexistuje. Tato definice je zásadní pro pochopení závažnosti problému, protože halucinace mohou mít různé formy a všechny představují potenciální riziko pro právní rozhodování.

Zjištění vyvolávají zásadní otázky ohledně tvrzení dodavatelů o spolehlivosti jejich nástrojů. Jak výzkumníci poznamenali, halucinace v právních AI nástrojích zůstávají "podstatné, rozsáhlé a potenciálně zákeřné". Ačkoliv nástroje skutečně snižují chyby ve srovnání s obecně zaměřenými AI modely jako GPT-4, což představuje zlepšení, i tyto specializované právní AI nástroje stále halucinují alarmující množství času. Výsledky studie mají dalekosáhlé důsledky pro právní profesi. Vzhledem k tomu, že téměř tři čtvrtiny právníků plánuje používat generativní AI ve své práci, je zásadní, aby si byla právní komunita vědoma omezení těchto nástrojů. Studie poukazuje na nutnost pokračujícího benchmarkingu, transparentnosti a opatrnosti při nasazování AI pro vysoce rizikový právní výzkum.

Rozšíření studie

Stanfordští výzkumníci zvažují rozšíření studie v reakci na otázky, které byly vzneseny ohledně metodologie a spravedlnosti testování. Centrální zjištění však zůstává nezměněno: ani specializované právní AI nástroje nejsou bez halucinací. Toto zjištění má zásadní význam pro právní praxi, kde může jedna chyba mít vážné důsledky pro klienty i právníky samotné. Studie také odhaluje potřebu lepšího vzdělávání právníků o omezeních AI technologie. Mnoho právníků možná nepochopuje, jak často tyto nástroje produkují nesprávné informace, což může vést k nadměrnému spoléhání na AI výstupy bez náležité verifikace. Právní vzdělávání a průběžné odborné vzdělávání by měly zahrnovat témata o odpovědném používání AI a důležitosti ověřování AI generovaných informací.

Budoucnost AI v právním sektoru

Budoucnost právní AI bude pravděpodobně závislá na vývoji spolehlivějších systémů a lepších praktik pro jejich používání. Dodavatelé technologií budou muset transparentněji komunikovat omezení svých produktů a investovat do výzkumu a vývoje zaměřeného na snižování míry halucinací. Současně bude právní komunita muset vyvinout standardy a best practices pro integraci AI do právní praxe způsobem, který minimalizuje rizika a maximalizuje přínosy.

Jedním z nejznámějších případů nesprávného použití AI v právní praxi je případ newyorského právníka Stevena A. Schwartze z roku 2023. Schwartz z právnické firmy Levidow, Levidow & Oberman použil ChatGPT k právnímu výzkumu v případu osobní újmy předloženém u federálního soudu. AI vygenerovala šest zcela fiktivních soudních rozhodnutí s falešnými citacemi a komentáři, které Schwartz zařadil do svého právního podání bez ověření. Když soudce P. Kevin Castel tyto falešné případy zpozoroval a Schwartze s nimi konfrontoval, právník přiznal použití ChatGPT, ale zpočátku svou činnost obhajoval s tím, že si nebyl vědom možnosti, že by obsah mohl být nepravdivý. Schwartz dokonce předložil záznamy rozhovorů s ChatGPT, kde se AI dotazoval, zda jsou případy skutečné, na což mu AI falešně potvrdila, že jsou legitimní a "lze je najít v renomovaných právních databázích jako LexisNexis a Westlaw". Schwartz a jeho kolega Peter LoDuca byli nakonec pokutováni 5 000 dolary za uvedení soudu v omyl a museli poslat omluvy všem soudcům zmíněným v falešných citacích.

Kategorie: AI

Líbil se vám tento článek?

Objevte další zajímavé příspěvky na blogu

Zpět na blog