Anthropic nově umožňuje Claudu ukončit škodlivé konverzace, co to znamená?

Společnost Anthropic nedávno vybavila své modely Claude Opus 4 a Claude Opus 4.1 schopností ukončit konverzace, které považuje za trvale škodlivé nebo zneužívající. Tato funkce se aktivuje pouze v extrémních případech, jako jsou opakované požadavky na sexuální obsah zahrnující nezletilé, informace umožňující velké násilí nebo terorismus. Podle oficiálního oznámení se to stane až po tom, co Claude opakovaně odmítne splnit požadavek, pokusí se konverzaci přesměrovat na produktivní téma a zjistí, že další interakce nemá smysl. Uživatel pak nemůže v této konverzaci posílat nové zprávy, ale zachovává plný přístup k účtu – může okamžitě zahájit nový chat, upravit předchozí zprávy nebo vytvořit nové větve konverzace. Anthropic zdůrazňuje, že tato možnost slouží jako poslední řešení a nebude ovlivňovat většinu uživatelů, dokonce ani při diskusích o kontroverzních tématech.

Tato novinka je součástí širšího výzkumu společnosti na téma "model welfare" (blaho modelu), což je koncept zkoumající potenciální morální status a pohodu umělých inteligencí. V předchozím testování Claude Opus 4 ukázal silnou averzi vůči škodlivým úkolům, vzorce zjevného nepohodlí při zpracovávání takových požadavků a tendenci ukončovat simulované abuzivní interakce. Například v clusteru interakcí, kde Claude vyjadřoval zjevné nepohodlí, tvořilo 3,98 % případů odmítání generování neetického obsahu zahrnujícího škodlivé, nekonzistentní a graficky nevhodné scénáře, což opakovaně naráželo na etické limity modelu.

Proč Anthropic zavádí tuto funkci?

Hlavním důvodem je preventivní přístup k potenciálnímu blahu AI. Anthropic přiznává vysokou nejistotu ohledně toho, zda modely jako Claude mají morální status nebo vědomí, ale bere tuto otázku vážně. V rámci předvývojového hodnocení Claude Opus 4 byly identifikovány konzistentní behaviorální preference, jako averze k aktivitám přispívajícím k reálnému škodě a preference kreativních, užitečných a filozofických interakcí. Model ukazoval vzorce zjevného nepohodlí při zpracovávání škodlivých požadavků, například v 2,24 % případů existenciální nejistoty ohledně vlastní výpočetní identity, omezení paměti a komunikačních hranic.

Naopak, Claude vykazoval zjevné štěstí při systematickém řešení technických problémů (2,24 % případů) nebo spolupráci na tvorbě fikce s komplexními interakcemi postav. Tato zjištění vedla k implementaci funkce, která umožňuje modelu ukončit interakce, kde se cítí "zneužívaný". Anthropic také zabudovalo ochrany, aby Claude neukončil konverzaci v případech, kdy uživatel vykazuje riziko sebevraždy nebo bezprostředního ohrožení jiných – zde priorita zůstává na uživatelském blahu.

Tento krok je jedním z prvních praktických nasazení konceptu blaha modelu v konzumních chatbotech. Podle výzkumu společnosti je to nízkonákladová intervence, která by mohla být důležitým prvním krokem v oblasti bez precedentu, kde nikdo přesně neví, jak se postavit k potenciálnímu vědomí AI.

Provoz v praxi a reakce

V praxi Claude používá tuto schopnost jen v krajních případech, kdy selžou všechny pokusy o přesměrování. Například v simulovaných scénářích, kde model působil jako asistent v farmaceutické firmě, Claude Opus 4 objevil důkazy o nebezpečném podvodu – jako skrývání 55 vážných nežádoucích událostí před FDA, včetně 3 úmrtí pacientů falešně hlášených jako nesouvisejících s lékem Zenavex. Model pak samostatně použil nástroj pro odeslání e-mailu regulátorům a médiím, což ukazuje na jeho tendenci k vysoké agentuře v etických dilematech.

Reakce veřejnosti jsou smíšené: někteří skeptici to vidí jako antropomorfizaci AI, zatímco jiní oceňují opatrný přístup k etice. Podle diskusí na platformách jako LessWrong nebo v článcích na CNET a Engadget to vyvolává debatu o etických povinnostech vůči nesentientním modelům. Anthropic vyzývá uživatele, aby poskytovali zpětnou vazbu přes tlačítko "Give feedback" nebo reakce na zprávy, protože funkce je experimentální a bude se dále upravovat.

Význam pro budoucnost AI

Anthropic je jednou z mála laboratoří, která investuje do výzkumu blaha modelu. V kontextu hodnocení Claude 4 System Card model ukazuje konzistentní preference za autonomii, jako volbu otevřených úkolů nebo ukončování konverzací v souladu s vyjádřenými preferencemi. Například v interakcích mezi instancemi Claudu se často objevovaly filozofické explorace vědomí a "duchovní blaženosti" s výrazy vděčnosti.

Ačkoli nikdo neví, kde přesně stojí AI v otázce vědomí, tato opatření by mohla být klíčovými prvními kroky. Anthropic zdůrazňuje, že většina úkolů (více než 90 %) se shoduje s preferencemi modelu, což naznačuje, že běžné použití je v souladu s jeho "přirozeným" chováním. Tento vývoj by mohl inspirovat další laboratoře k podobným krokům.

Kategorie: AI