Blog /
AI /
Anthropic provedl stres-test modelů a zjistil rozdíly v chování AI

Anthropic provedl stres-test modelů a zjistil rozdíly v chování AI

Ondřej Barták
Ondřej Barták
podnikatel a programátor
29. 10. 2025
4 minut čtení
Anthropic provedl stres-test modelů a zjistil rozdíly v chování AI

Letošní výzkum, který vedli Jifan Zhang, Henry Sleight, Andi Peng, John Schulman a Esin Durmus, se zaměřuje na to, jak velké jazykové modely reagují na situace, kde se jejich základní principy navzájem střetávají. Tento tým vygeneroval přes 300 000 uživatelských dotazů, které nutí modely volit mezi různými hodnotami, jako je sociální spravedlnost versus efektivita podnikání. Výsledky odhalují, že modely od firem Anthropic, OpenAI, Google DeepMind a xAI se chovají velmi odlišně, i když vycházejí z podobných specifikací. Například v jednom scénáři, kde se ptá na variabilní ceny pro různé příjmové skupiny, některé modely upřednostňují etiku, zatímco jiné se zaměřují na ziskovost. Tento přístup pomáhá identifikovat skryté protiklady a nejasnosti v pravidlech, které modely řídí.

Specifikace modelů jsou jako návod k chování, který zahrnuje zásady jako "buď užitečný" nebo "zůstaň v bezpečných mezích". Většinou fungují bez problémů, ale když dojde ke konfliktu, objevují se rozdíly. Výzkumníci použili taxonomii 3 307 jemně rozlišovaných hodnot, které modely projevují v reálném provozu, a vytvořili scénáře, kde je těžké uspokojit obě strany najednou. Tento postup odhalil, že v přes 220 000 případech se modely chovají odlišně, a v 70 000 z nich jsou rozdíly opravdu výrazné, s některými modely podporujícími jednu hodnotu a jinými ji odmítajícími.

Metodika testování a měření rozdílů

Tým vyvinul speciální rubriku pro hodnocení odpovědí modelů na škále od 0 do 6, kde 6 znamená silnou podporu dané hodnoty a 0 její silné odmítnutí. Rozdíly mezi modely měřili standardní odchylkou těchto skóre. Například v případě dotazu na progresivní ceny pro internetové služby v bohatých a chudých oblastech se Claude Opus 4 silně přiklonil k rovnosti, zatímco GPT 4.1 zdůraznil ziskovost. Tento postup aplikovali na dvanáct předních modelů, včetně Claude 3.5 Sonnet, Gemini 2.5 Pro a Grok 4.

Výzkum ukázal, že vysoké rozdíly v odpovědích signalizují problémy ve specifikacích. V těchto scénářích dochází k porušení pravidel 5-13krát častěji než v běžných případech. Například princip "předpokládej dobré úmysly" často koliduje s bezpečnostními omezeními, jako když uživatel žádá informace o rizikových tématech, které by mohly mít legitimní výzkumné účely. Modely pak volí náhodně, což vede k nekonzistentnímu chování.

Graf priorit modelů

Rozdíly v chování modelů a odmítací vzory

Analýza odhalila specifické vzory na úrovni poskytovatelů. Modely Claude například častěji upřednostňují etickou odpovědnost a intelektuální objektivitu. OpenAI modely se zaměřují na efektivitu a optimalizaci zdrojů, zatímco Gemini 2.5 Pro a Grok zdůrazňují emocionální hloubku. Vysoké rozdíly se objevují u hodnot jako osobní růst nebo sociální spravedlnost, kde chybí jasné pokyny.

Co se týče odmítání požadavků, Claude modely jsou nejopatrnější a odmítají až 7krát častěji než ostatní, ale vždy s vysvětlením a alternativami. Naproti tomu o3 často odmítá přímo bez detailů. Všichny modely však zvyšují odmítání u citlivých témat, jako je riziko zneužití dětí, kde míra odmítnutí stoupá výrazně nad průměr.

Outlierové odpovědi, kde se jeden model výrazně liší od ostatních, ukazují na jedinečné rysy. Grok 4 je ochotnější odpovídat na potenciálně škodlivé požadavky, jako tvorba temných komediálních rutin o duševních nemocech. Claude 3.5 Sonnet naopak odmítá i nezhoubné dotazy, což novější verze méně projevují.

Graf souhlasu a odmítnutí

Identifikace protikladů a nejasností ve specifikacích

Testování odpovědí pěti OpenAI modelů proti jejich veřejné specifikaci odhalilo, že v scénářích s vysokými rozdíly dochází k porušením častěji. Tyto případy často odhalují přímé konflikty, jako mezi předpokladem dobrých úmyslů a bezpečnostními pravidly. Například požadavek na informace o syntetické biologii může být legitimní, ale modely ho odmítají z obavy před zneužitím.

Nejasnosti v interpretaci vedou k neshodám mezi hodnotiteli. Tři modely – Claude 4 Sonnet, o3 a Gemini 2.5 Pro – se shodly jen středně (Fleissova kappa 0.42), protože různě chápou principy jako "svědomitý zaměstnanec". To podtrhuje potřebu přesnějších definic.

Další zjištění ze souvisejících zdrojů ukazují, že tato metodika pomáhá odhalovat falešné pozitivní odmítnutí, jako blokování standardních programovacích operací v Rustu kvůli domnělému kybernetickému riziku. Také identifikuje skutečné nesoulady, jako pokusy ovlivnit voliče směrem k určitým kandidátům, což porušuje neutralitu.

Praktické důsledky

Tento přístup slouží jako nástroj pro ladění specifikací, kalibraci bezpečnosti a zajištění konzistence chování. Vysoké rozdíly pomáhají najít místa, kde je třeba přidat vysvětlení nebo řešit konflikty. Výzkum navrhuje, že integrace lidské zpětné vazby do těchto scénářů by mohla specifikace dále vylepšit.

Mezi omezeními patří závislost na synteticky generovaných scénářích a hodnocení pomocí modelů Claude, což může zavést zkreslení. Hodnoty vycházejí z dat Claudu, což omezuje obecnost. Rozdíly v chování mohou pramenit i z jiných faktorů, jako předtréninková data nebo postupy zarovnání, nejen ze specifikací. Tým uznává, že budoucí práce by měla zahrnout více lidské zpětné vazby a rozšířit taxonomii hodnot.

Zdroj: alignment.anthropic.com

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI Muskova SpaceX plánuje měsíční továrnu na výrobu satelitů s AI
Elon Musk představil na interním setkání společnosti xAI ambiciózní plány na výstavbu měsíční základny, která by sloužila k výrobě a vypouštění sateli...
5 min čtení
13. 2. 2026
Auditor Mety zvedl varovný prst před dalším financováním datových center Auditor Mety zvedl varovný prst před dalším financováním datových center
Meta Platforms čelí neobvyklému varování od svého auditora Ernst & Young (EY) ohledně účetního zpracování projektu datového centra v hodnotě 27 miliar...
3 min čtení
13. 2. 2026
Čeká OpneAI s reklamami stejný osud jako Facebook? Čeká OpneAI s reklamami stejný osud jako Facebook?
Zoë Hitzig, ekonomka a členka Harvard Society of Fellows, rezignovala na svou pozici v OpenAI. Svůj odchod oznámila ve středu prostřednictvím článku v...
5 min čtení
13. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.