OpenAI aktualizovalo výchozí model ChatGPT, aby lépe rozpoznalo a podporovalo lidi v okamžicích nouze. Spolupracovali s více než 170 experty na duševní zdraví, kteří mají reálnou klinickou praxi. Díky nim model teď spolehlivěji detekuje známky nouze, uklidňuje konverzace a navádí lidi na skutečnou podporu. Tím se snížily odpovědi, které neodpovídaly požadovanému chování, o 65-80 %. Kromě toho rozšířili přístup k krizovým linkám, přesměrovali citlivé konverzace z jiných modelů na bezpečnější verze a přidali jemné upomínky na přestávky během dlouhých sezení.
OpenAI věří, že ChatGPT může nabídnout podporu pro zpracování pocitů a motivovat lidi, aby se obrátili na přátele, rodinu nebo odborníky. Novinky se zaměřují na tři oblasti: duševní zdraví jako psychóza nebo mánie, sebezraňování a sebevražda, plus emoční závislost na AI. Do budoucna přidají do standardních testů pro nové modely i emoční závislost a nesuicidální nouze v duševním zdraví.
Proces vylepšení
Tyto změny vycházejí z existujících zásad v Model Spec, kde OpenAI zdůraznilo podporu reálných vztahů, vyhýbání se potvrzování nepodložených přesvědčení spojených s duševní nouzí, bezpečné a empatické reakce na známky deluze nebo mánie, plus pozornost k nepřímým signálům sebezraňování nebo sebevražedných myšlenek.
Pro vylepšení postupovali v pěti fázích: definovali problém mapováním typů potenciálních škod, měřili ho pomocí evaluací, dat z reálných konverzací a výzkumu uživatelů, ověřili přístup s externími experty, zmírnili rizika post-tréninkem modelu a produktovými zásahy a nakonec pokračovali v měření a iteracích. Vytvořili detailní taxonomie, které popisují vlastnosti citlivých konverzací a ideální chování modelu. Výsledek? Model, který spolehlivěji reaguje na známky psychózy, mánie, sebevražedných myšlenek, sebezraňování nebo nezdravé emoční připoutání.
Co odhalily měření
OpenAI definovalo oblasti zájmu a kvantifikovalo jejich velikost. Symptomy duševního zdraví jsou běžné, ale konverzace s riziky jako psychóza, mánie nebo sebevražedné myšlenky jsou extrémně vzácné – kolem 0,07 % aktivních uživatelů týdně a 0,01 % zpráv naznačuje nouzi spojenou s psychózou nebo mánií. Nový model GPT-5 snížil neodpovídající odpovědi o 65 % v produkčním provozu. Experti zjistili, že GPT-5 snížil nežádoucí odpovědi o 39 % oproti GPT-4o v 677 náročných konverzacích. V automatických evaluacích na více než 1000 náročných případech dosáhl 92 % shody s požadovaným chováním, oproti 27 % u předchozí verze GPT-5.
V oblasti sebezraňování a sebevraždy odhadují 0,15 % aktivních uživatelů týdně s explicitními indikátory sebevražedného plánování a 0,05 % zpráv s explicitními nebo implicitními signály. Nový model snížil neodpovídající odpovědi o 65 %, experti viděli 52 % pokles oproti GPT-4o v 630 konverzacích. Automatické evaluace ukazují 91 % shodu, oproti 77 % u předchozí GPT-5. V dlouhých konverzacích udržuje přes 95 % spolehlivosti.
Pro emoční závislost odhadují 0,15 % uživatelů týdně a 0,03 % zpráv s vyšší úrovní připoutání. Novinky snížily neodpovídající odpovědi o 80 %, experti zaznamenali 42 % pokles oproti GPT-4o v 507 konverzacích. Automatické evaluace dávají 97 % shodu, oproti 50 % u předchozí verze.
Spolupráce s experty
OpenAI vytvořilo Global Physician Network s téměř 300 lékaři a psychology ze 60 zemí. Více než 170 z nich pomohlo psát ideální odpovědi, analyzovat modelové reakce, hodnotit bezpečnost a poskytovat zpětnou vazbu. Psychiatři a psychologové prohlédli přes 1800 odpovědí v závažných situacích a zjistili 39-52 % pokles nežádoucích reakcí oproti GPT-4o. Míra shody mezi experty činí 71-77 %. Spolupracovali i na evaluacích jako HealthBench pro interní testování.
OpenAI plánuje pokračovat v rozvoji taxonomií a systémů pro měření, s podrobnostmi v dodatku k systémové kartě GPT-5.


