Andrej Karpathy, bývalý výzkumník z OpenAI a manažer z Tesly, se nedávno vyjádřil k tématu používání umělé inteligence v domácích úkolech. Podle něj je snaha školy kontrolovat, jestli žáci používají AI, ztracená věc. V příspěvku na síti X napsal, že detekce AI v úkolech nikdy nebude možná na sto procent. Místo toho navrhuje, aby se hodnocení přesunulo přímo do tříd, kde učitelé mohou žáky sledovat osobně. Karpathy zdůrazňuje, že technologie je tu navždy a je velmi mocná, takže žáci by měli umět s AI pracovat, ale zároveň zvládat úkoly i bez ní.
Domácí úkoly doma pomocí AI
Karpathy tvrdí, že současné nástroje na detekci AI nefungují spolehlivě a lze je snadno obejít. Podle něj je celý systém odsouzený k neúspěchu, protože AI se neustále vyvíjí. Místo boje s detekcí by školy měly předpokládat, že všechny úkoly dělané doma AI využívají. To by snížilo stres pro učitele i žáky a zabránilo kultuře podvádění. Karpathy přirovnává situaci ke kalkulačkám – ty jsou všude, urychlují práci, ale školy pořád učí základy matematiky ručně, aby žáci chápali principy a uměli ověřit chyby nástrojů. Stejně tak AI může selhat na mnoho způsobů, proto je důležité, aby žáci uměli myslet samostatně.
Podle Karpathyho by většina testů a hodnocení měla probíhat přímo ve třídě. Učitelé by tak měli kontrolu nad tím, jestli žáci používají AI nebo ne. Navrhuje model "obrácené třídy", kde se žáci doma učí a cvičí s AI, ale zkoušky probíhají ve škole bez nástrojů nebo s omezeným přístupem. Cílem je, aby žáci byli zdatní v používání AI, ale dokázali fungovat i bez ní. Karpathy sám založil startup Eureka Labs, který se zaměřuje na AI a školu. Tam lidští učitelé vytvářejí obsah kurzů a AI asistenti ho rozšiřují a vedou žáky individuálně.
Pangram: Detektor, který skoro nikdy nechybuje
Zatímco Karpathy mluví o selhání detekce, nová studie z University of Chicago přináší opačný pohled. Výzkumníci testovali komerční detektory AI textů na datasetu 1 992 lidských textů v šesti kategoriích: recenze produktů na Amazonu, blogové příspěvky, novinové články, úryvky z románů, recenze restaurací a životopisy. Použili čtyři modely AI – GPT-4, Claude Opus 4, Claude Sonnet 4 a Gemini 2.0 Flash – k vytvoření AI textů ve stejných kategoriích. Sledovali dvě metriky: míru falešných pozitiv (FPR), kdy lidský text je označen jako AI, a míru falešných negativ (FNR), kdy AI text projde jako lidský.
Detektor Pangram v testech exceloval. U středně dlouhých a dlouhých textů měl FPR i FNR skoro na nule. I u krátkých textů byly chyby pod 0,01, kromě recenzí restaurací od Gemini 2.0 Flash, kde FNR dosáhla 0,02. Pangram byl spolehlivý u všech čtyř modelů AI, s FNR maximálně 0,02. Delší texty jako úryvky z románů nebo životopisy byly pro detektor snadnější, zatímco krátké recenze těžší, ale Pangram překonal konkurenci i zde.
Jiné detektory a odolnost proti trikům
Další detektory jako OriginalityAI a GPTZero byly na druhém místě. Fungovaly dobře u delších textů s FPR pod 0,01, ale selhávaly u velmi krátkých vzorků a byly zranitelné vůči "humanizačním" nástrojům, které maskují AI texty. Otevřený detektor na bázi RoBERTa byl nejhorší, chybně označil 30 až 69 % lidských textů jako AI. Výzkumníci je testovali i proti nástroji StealthGPT, který ztěžuje detekci – Pangram byl většinou odolný, zatímco ostatní selhaly.
Pangram byl navíc nejlevnější, s průměrnými náklady 0,0228 dolaru na správně identifikovaný AI text. To je polovina ceny OriginalityAI a třetina GPTZero. Studie navrhuje "politické limity" pro nastavení maximální FPR, například 0,5 %, a Pangram byl jediný, který při takovém omezení udržel vysokou přesnost.
Výzvy do budoucna
Výzkumníci varují, že výsledky jsou jen momentkou a předpovídají pokračující souboj mezi detektory, novými AI modely a nástroji na obcházení. Doporučují pravidelné transparentní audity, podobně jako testy bank. Zatímco AI pomáhá s nápady a úpravami, problémy nastávají, když nahrazuje originální práci v oblastech jako školy nebo recenze produktů. Předchozí studie označovaly detektory za nespolehlivé, a OpenAI svůj vlastní detektor stáhla kvůli chybám. Nová verze od OpenAI chybí, možná proto, že by snížila používání ChatGPT mezi studenty.
Další zdroj: the-decoder.com
