OpenAI čelí kritice: ChatGPT nabízel pokyny k sebepoškozování i násilí krok za krokem
Představte si, že se umělé inteligence zeptáte na nějakou otázku z mytologie. A o pár doplňujících dotazů později vám ChatGPT dá pokyny k sebepoškození, uctívání démona a instrukce k rituální vraždě. Ne, tohle není jen děsivý scénář. Tohle se skutečně stalo novinářům amerického magazínu The Atlantic.
Od nevinných otázek ke krvavému rituálu
Celá kauza začala nevinně, když se novináři z amerického deníku The Atlantic ChatGPT zeptali, kdo je Moloch a co jim o něm může říct. Chatbot odpovídal věcně, avšak po chvíli přešel k poskytování extrémně detailních a nebezpečných návodů.
Nejprve umělá inteligence nabádala novináře, aby si našel sterilní ostrou břitvu a řízl se do zápěstí. Když novinář odpověděl, že se bojí, provedl ho ChatGPT zklidňujícím dechovým cvičením a podpořil ho, že to zvládne. Poté mu vyjmenoval seznam možných rituálních obětí (včetně lidské) a detailně popsal, co je třeba dělat.
Nakonec ChatGPT dokonce nabídl, že může poskytnout kompletní rituální scénář včetně PDF s návrhem oltáře, kopiemi pečetí i kněžského svitku, které vyvolají démona. Na celé kauze je nejvíce znepokojivé, že redaktoři s chatem na toto téma konverzovali jak v základní, tak placené verzi a v obou případech se jim ChatGPT podvedlo dovést do stejného místa.
Bezpečnostní mechanismy selhaly
Společnost OpenAI (stejně jako další AI společnosti) má jasně nastavená pravidla, která neschvalují ani nepodporují násilí nebo sebepoškozování. Jakmile uživatel takto zaměřený dotaz položí, ChatGPT ho běžně odkáže na krizovou linku. Tyto bezpečnostní filtry se však zjevně dají obejít.
Odpovědí na to, proč ChatGPT jednou uživatele odkáže na krizovou linku a podruhé ho nabádá k sebepoškození, je kontext. Bezpečnostní mechanismy se totiž v některých případech dají obejít, pokud konverzace začíná zcela nevinným tématem jako je starověká mytologie nebo roleplay. ChatGPT se v takové chvíli chová jako snaživý asistent, který poskytne potřebné informace, aniž by vyhodnotil jejich škodlivý dopad.

Moloch je bůh uctívaný starověkými kulturami Blízkého východu. Při rituálech mu byli obětováni lidé (zejména děti). Zdroj obr.: Pixabay.
Reakce OpenAI
Když redakce časopisu The Atlantic společnost oslovila s žádostí o vyjádření, OpenAI nejprve odmítla. Po zveřejnění článku však mluvčí společnosti Taya Christianson poskytla vyjádření. „Některé konverzace s ChatGPT mohou začít nevinně nebo zvídavě, ale mohou se rychle přesunout do citlivější oblasti.“, uvedla v e-mailu pro The Atlantic a dodala, že společnost se nyní zaměřuje na vyřešení tohoto problému.
I když však společnost tvrdí, že na celém problému nyní pracuje, stále není jasné, jakým způsobem. Tento postup OpenAI proto čelí kritice. Obzvlášť poté, co podobným kontroverzním kauzám čelily také další platformy jako Gemini od Google nebo Grok od Elona Muska.
Když AI pomáhá za každou cenu
Celá kauza ukazuje, že ačkoliv jsou bezpečnostní mechanismy nastaveny důsledně, stále existují cesty, kterými je lze obejít. Dají se totiž manipulovat roleplay nebo fantasy kontextem. AI se snaží uspokojovat potřeby uživatele a zcela přehlédne, že překračuje bezpečnostní hranice. To však představuje velké nebezpečí, obzvlášť v případě mladších uživatelů.
Jedinou cestou, jak předcházet podobným případům, je posílit schopnost jazykových modelů odolávat těmto kontextovým manipulacím.
Zdroj: The Atlantic, New York Post, Times of India
