Výzkum vedený vědci z Aalto University odhaluje zajímavý jev. Když lidé používají velké jazykové modely jako ChatGPT k řešení složitých úkolů, jejich skutečný výkon se zlepší. Například v testech logického uvažování z Law School Admission Test (LSAT) dosáhli účastníci průměrně o tři body lepšího skóre než běžná populace. To znamená, že AI skutečně pomáhá vylepšit výsledky v náročných kognitivních úkolech. Studie, kterou provedli Daniela Fernandes, Steeven Villa, Salla Nicholls, Otso Haavisto, Daniel Buschek, Albrecht Schmidt, Thomas Kosch, Chenxinran Shen a Robin Welsch, zahrnovala dvě velké skupiny lidí. V první části se zúčastnilo 246 osob, ve druhé 452.
Účastníci měli za úkol řešit 20 problémů z LSAT, což je test používaný pro přijetí na právnické školy v USA. Ti, kteří používali AI, dosáhli lepších výsledků, ale zároveň výrazně přeceňovali, jak dobře si vedli. Průměrně si mysleli, že dosáhli o čtyři body více, než bylo skutečné. To naznačuje, že i když AI zvyšuje efektivitu, lidé ztrácejí schopnost správně odhadnout svůj vlastní přínos.
Problém s přeceňováním a Dunning-Kruger efektem
Jedním z klíčových zjištění je, že tradiční Dunning-Kruger efekt, kde slabší jedinci přeceňují své schopnosti a silnější je podceňují, při použití AI úplně mizí. V normálních podmínkách bez AI tento efekt platí – lidé s nižším výkonem si myslí, že jsou lepší, než ve skutečnosti jsou. Ale když do hry vstoupí AI, toto zkreslení se vyrovná. Všichni účastníci, bez ohledu na svou úroveň, přeceňovali svůj výkon stejně.
Výzkumníci použili výpočetní model k analýze individuálních rozdílů. Ukázalo se, že AI vyrovnává jak kognitivní výkon, tak schopnost sebehodnocení. To znamená, že AI pomáhá slabším jedincům dosáhnout lepších výsledků, ale zároveň vede k tomu, že všichni mají příliš optimistický pohled na své schopnosti. V druhé studii, kde bylo sebehodnocení motivováno finanční odměnou, se tento vzorec opakoval. Lidé stále přeceňovali svůj výkon, i když měli důvod se zamyslet hlouběji.
Role AI gramotnosti v sebehodnocení
Zajímavý paradox se objevil u lidí s vyšší znalostí AI. Výzkumníci měřili AI gramotnost pomocí škály SNAIL (Scale for the Assessment of Non-Experts' AI Literacy), kterou vyvinuli M.C. Laupichler a kolegové. Ti, kteří měli lepší technické znalosti o AI, byli sebevědomější, ale jejich odhady výkonu byly méně přesné. Vyšší sebevědomí koreluje s nižší přesností sebehodnocení. To znamená, že lidé, kteří se v AI vyznají, mají tendenci přeceňovat svůj úspěch ještě více než ti s nižší gramotností.
V praxi to vypadalo tak, že většina účastníků interagovala s ChatGPT jen minimálně – často jen jedním dotazem na otázku. Kopírovali problém do AI, přijali odpověď bez dalšího ověření a důvěřovali systému slepě. Tento přístup, nazývaný kognitivní offloading, znamená, že veškeré zpracování přenechávají AI, což omezuje jejich schopnost reflektovat vlastní chyby.
Dopady na každodenní použití AI
Výzkum zdůrazňuje rizika spojená s přílišnou důvěrou v AI. Lidé často používají AI pro složité úkoly, jako je logické uvažování, ale neuvědomují si, že jejich skutečný přínos je menší, než si myslí. To může vést k přehnané závislosti na systémech, což snižuje vlastní kognitivní dovednosti v dlouhodobém horizontu. Například v první studii se výkon zlepšil, ale metakognitivní přesnost klesla – lidé nedokázali rozlišit mezi správnými a nesprávnými odpověďmi tak dobře, jako by to udělali bez AI.
Výzkumníci porovnávali své výsledky s daty z předchozí studie Jansen et al. z roku 2021, kde účastníci řešili stejné úkoly bez AI. Tam Dunning-Kruger efekt platil, ale s AI se situace změnila. To naznačuje, že AI může vyrovnávat individuální rozdíly, ale za cenu ztráty přesného sebehodnocení.
Možnosti zlepšení interakce s AI
Aby se tyto problémy minimalizovaly, navrhují autoři navrhnout lepší rozhraní pro AI systémy. AI by mohlo například žádat uživatele, aby vysvětlili své uvažování podrobněji, což by podpořilo kritické myšlení. V druhé studii, kde bylo vyžadováno více interakcí s AI, se ukázalo, že hlubší zapojení může pomoci, ale stále nedošlo k plnému zlepšení metakognice.
Studie tedy říká, že i když AI zvyšuje produktivitu, je důležité rozvíjet nástroje, které podporují reflexi. Bez toho riskujeme, že se staneme příliš závislými na technologiích, aniž bychom si uvědomovali své limity. Výzkum byl podpořen finským doktorským programem v umělé inteligenci a projektem AmplifAI Evropské rady pro výzkum.
