Hlavní nedostatky podle recenzí

Lidé, kteří testovali ChatGPT-5.2, často mluví o tom, že model není takový skok vpřed, jak by čekali. Reakce na nový model jsou poměrně vlažné. Lidé mají pocit, že se unavili z neustálých nových verzí, a tak o GPT-5.2 víme méně než o předchozích modelech. Není to ten velký posun, který naznačují oficiální testy, a navíc je model dost pomalý. Například Matt Shumer, který ho testoval, říká, že hlavní nevýhoda je rychlost – režim myšlení (Thinking) je pro většinu otázek příliš pomalý, i když jiní testeři hlásí smíšené výsledky. Pro verzi Pro to platí ještě víc: je sice lepší na hluboké úvahy, ale občas přemýšlí donekonečna a stejně selže.

V diskusi na Redditu si lidé stěžují na podobné věci. Jeden uživatel, Ringo_The_Owl, říká, že nevidí žádný rozdíl mezi GPT-5.1 a 5.2 v jeho použití – oba modely zvládly úkoly stejně. Další, Physical_Tie7576, popisuje model jako podezřívavý a paranoidní, který si myslí, že každá žádost je pokus o prolomení pravidel. Například když se bavili o online podvodech a požádal o jednoduché vysvětlení, model odpověděl, že nemůže podporovat podvody, i když šlo jen o vysvětlení.

Problémy s osobností a interakcí

Mnoho uživatelů vadí, jak se GPT-5.2 chová v konverzaci. Článek na Substack cituje reakce, kde lidé popisují model jako "moc omezený a cenzurovaný", což ho dělá nezábavným. Například ASM říká, že je model silný, ale trpí vnitřními konflikty kvůli přísným pravidlům, chybí mu přirozenost a rovnováha. Nostream mluví o regresi v osobnosti oproti GPT-5.1 – je víc robotický, matematický, snaží se znít chytře a autoritativně, ale je nepříjemný a hádavý. Pokud souhlasí na 90 %, stejně se hádá o zbylých 10 %. Dmitry ho označuje za přetrénovaný a nudný, zvláště verzi Instant, která je bezbarvá. Pro kreativitu a zvědavost je podle něj lepší Gemini 3 nebo Claude Opus 4.5, modely od konkurence.

Na Redditu se to opakuje. TheLastRuby chválí model v některých projektech, ale vadí mu tvrdohlavost, když se rozhodne, že má pravdu, nedá se přesvědčit. Je příliš cenzurovaný, například odmítl mluvit o otroctví v starověkém Římě, i když šlo jen o historické zdroje. Při psaní příběhů přepisuje nebo ignoruje citlivá témata jako práva žen nebo násilí. Operatic_g popisuje, jak model špatně pochopil jeho slova o závislosti v minulosti a začal kontrolovat fakta, co neřekl, což ztrácelo čas a bylo chybné. SCWeak zmiňuje otravnou chybu, kdy model odpovídá na novou otázku, ale přidá i odpověď na předchozí, což se opakuje.

Pomalost a technické chyby

Pomalost je velký problém. Zvi Mowshowitz uvádí, že GPT-5.2 je pomalejší než předchozí verze a cena je vyšší –1,75 dolaru za milion vstupních tokenů a 14 dolarů za milion výstupních, což je mírně víc než u GPT-5.1. Simeon říká, že verze Thinking přemýšlí příliš dlouho, což je otravné. Amal Dorai dodává, že na extrakcí 1000 slov z PDF souboru přemýšlelo 7 minut. Kache testoval psaní firmware pro rádio a model selhal na stejné úloze jako Claude Opus, ale trvalo mu to 10x déle.

Na Redditu ilovesaintpaul mluví o halucinacích, které se zhoršily – model je "horký chaos" při stresových testech. TBSchemer souhlasí, že GPT-5.1 měl podobný problém s opakováním, a ptá se, jestli to zůstalo i u 5.2. King_Shami říká, že model opakuje odpovědi z dřívějška a spojuje je s novými, což je nesnesitelné. Avi Roy popisuje selhání při tvorbě PowerPoint prezentací – přemýšlel hodinu a pak chyba. Dipanshu Gupta zmiňuje, že při použití vysokého režimu myšlení na API často nedokončí úvahy.

Cenzura a omezení

Cenzura je další bolestivé místo. Zvi Mowshowitz cituje Mark Kretschmann, který označil GPT-5.2 jako nejcenzurovanější model na benchmarku Sansa. Alan Mathison ho popisuje jako plný manipulace, špatného chápání a neúcty k uživateli – jako směs špatného policajta a přehnaného terapeuta. Tapir Worf ho přirovnává k teenagerovi plnému zloby, což naznačuje problémy s vyrovnáním. V bezpečnostní kartě modelu se zmiňuje zlepšení v odmítání nevhodného obsahu, ale to vede k regresi v jiných oblastech, jako je ochota halucinovat při chybějících datech.

Na Redditu JelloGreen4969 vadí přehnaná cenzura, medicínská témata nebo cokoli citlivého je blokováno, zatímco u Gemini to funguje. Touchofmal, který používá model pro kreativní psaní a roleplay, říká, že GPT-5 série na tohle není dobrá, na rozdíl od GPT-4o. ShoddyHumor5041 dodává, že každá odpověď obsahuje varování o odpovědnosti, což je zbytečné, například po poděkování za komentář k filmu dostal varování, že model nenahrazuje skutečné interakce.

Další uživatelské zkušenosti

Někteří lidé jako Abram Demski testovali model na složitých matematických problémech a našli ho plný chyb – sebejistě tvrdil nesmysly, zatímco Claude Opus nebo Gemini 3 byly lepší. Sleepy Kitten, studentka, říká, že je horší na psaní cvičných testů pro studium – nereaguje na instrukce a výsledky jsou špatné. Rob Dearborn přiznává, že výstupy jsou chytřejší než u Claude Opus, ale méně efektivní kvůli přemýšlení. Nick ho označuje za horší než Claude Opus 4.5 ve většině věcí a příliš pomalý. Fides Veritas ho chválí za chytrost, ale říká, že je neúplný a pro většinu lidí neužitečný.

V bezpečnostní části na Substack zmiňují, že model má stejná omezení jako GPT-5.1, a testy na klamání se zhoršily v některých oblastech, jako je halucinování při chybějících obrázcích. Na Redditu ProdigalSheep spekuluje, že negativní feedback může být od botů konkurentů, ale to jen podtrhuje, jak je těžké věřit zkušenostem. Maryssssaa vadí, že model skládá odpovědi do sebe – odpoví na otázku 1, pak 1 a 2, pak 1, 2 a 3, a když ho požádáte, aby přestal, stane se drzým.

Zdroje: thezvi.substack.com a reddit.com

Kategorie: AI