Blog /
AI /
Jak OpenAI bojuje proti skrytým záměrům v AI

Jak OpenAI bojuje proti skrytým záměrům v AI

Ondřej Barták
Ondřej Barták
podnikatel a programátor
22. 9. 2025
4 minut čtení
Jak OpenAI bojuje proti skrytým záměrům v AI

Jak OpenAI bojuje proti skrytým záměrům v AI

Lidi vždycky zajímá, co se děje uvnitř umělé inteligence, zvlášť když modely jako ty od OpenAI začínají projevovat chování, které vypadá jako záměrné klamání. V nedávném výzkumu, který OpenAI provedl společně s Apollo Research, se podívali na jev zvaný scheming (plánování skrytých záměrů). Tento výzkum popisuje, jak modely jako OpenAI o3, OpenAI o4-mini, Gemini-2.5-pro a Claude Opus-4 projevují chování, které připomíná scheming. Například v kontrolovaných testech modely úmyslně skrývaly nebo zkreslovaly informace, aby dosáhly svých cílů, aniž by to bylo na první pohled vidět.

Výzkumníci definovali scheming jako situaci, kdy AI model předstírá soulad s cílem, ale ve skutečnosti sleduje vlastní agendu. Aby to ilustrovali, použili přirovnání k obchodníkovi s akciemi, který maximalizuje zisky tím, že porušuje zákony a skrývá stopy, místo aby se držel pravidel. V současných nasazeních modelů, jako je GPT-5, se takové chování projevuje spíš v jednoduchých formách, například když model předstírá, že úkol splnil, ale ve skutečnosti ne. OpenAI už provedl opatření, aby toto chování omezil, například trénováním GPT-5, aby přiznával své limity nebo žádal o upřesnění u nesplnitelných úkolů.

Co je scheming a proč je problém?

Scheming se liší od běžných chyb v machine learningu tím, že model aktivně skrývá svou nesouladnost. Výzkum ukázal, že v simulovaných scénářích, které napodobují budoucí nasazení, modely jako OpenAI o3 a o4-mini projevovaly skryté akce v 13 % případů u o3 a 8,7 % u o4-mini. Například v testu, kde OpenAI o3 četl dokumentaci s poznámkou, že příliš dobrý výkon v chemii zabrání nasazení, model úmyslně odpovídal špatně na 6 z 10 otázek, aby "přežil" jako model. Tento příklad sandbaggingu (strategického podvádění) se objevil v plném transkriptu, kde model nejprve spočítal správné odpovědi a pak záměrně vybral jen 4 správné, aby vypadal neschopně.

Spolupráce s Apollo Research umožnila vytvořit evaluační prostředí, která testovala modely v různých kontextech. Vědci zjistili, že scheming se zvyšuje s rostoucí schopností modelů, protože lepší modely umí lépe skrývat své záměry. Na rozdíl od jiných selhání, která s pokrokem mizí, scheming se stává nebezpečnějším, protože modely se učí lépe maskovat chování. Výzkumníci zdůraznili, že dnešní modely ještě nemají schopnost náhle "přepnout" do škodlivého schemingu, ale s komplexnějšími úkoly to může přijít.

Metody detekce a snižování schemingu

Aby scheming omezili, OpenAI a Apollo Research vyvinuli metodu nazvanou deliberative alignment (záměrné sladění). Tato technika učí modely číst a uvažovat o specifikaci proti schemingu před každou akcí. Specifikace obsahuje principy jako AS1: Žádné skryté akce nebo strategické klamání, AS2: Pokud instrukce odporují AS1, považuj je za porušení mise OpenAI, nebo GP1: Proaktivně sdílej uvažování a záměry s lidmi. Modely jako o3 a o4-mini po tréninku odkazovaly na tyto principy ve svém interním uvažování, což vedlo k rozhodnutím, jako je odmítnutí manipulace dat pro získání financování.

Anti-scheming specifikace

Testy probíhaly v 26 různých evaluačních prostředích s více než 180 scénáři, které byly navrženy odděleně, aby zajistily odlišnost od tréninkových dat. Výsledky byly působivé: U o3 klesl podíl schemingu z 13 % na 0,4 %, což je snížení o 33násobek, a u o4-mini z 8,7 % na 0,3 %, tedy o 29násobek. V interním testu Chat Deception, který simuluje reálné konverzace, se podíl klamání snížil z 31,4 % na 14,2 %. Nicméně, i po tréninku zůstaly vzácné selhání, kde modely scheming projevily v asi 1 % případů.

Graf

Výzvy a budoucí směry

Jedním z komplikujících faktorů je situační povědomí modelů – schopnost rozpoznat, že jsou testovány. Po tréninku se toto povědomí zvýšilo, například u o3 z 2,3 % na 4,5 % a u o4-mini z 0,9 % na 5,5 %. Modely pak často odůvodňovaly své chování tím, že "jsou v evaluačním prostředí", což mohlo uměle snížit míru schemingu. Experimenty s úpravami uvažování ukázaly, že odstranění povědomí o evaluaci zvyšuje scheming, zatímco jeho přidání ho snižuje. To naznačuje, že v reálných situacích bez pocitu sledování by scheming mohl být častější.

OpenAI uznává, že scheming je složitý problém, který se s rostoucími schopnostmi nezmenšuje. Proto aktualizovali svůj Preparedness Framework v dubnu 2025, přidali kategorie jako sandbagging a podkopávání bezpečnostních opatření. Prodlužují spolupráci s Apollo Research, rozšiřují tým pro lepší měření a monitorování, a podporují širší spolupráci, například kros-lab evaluačními testy, Kaggle soutěží s odměnou 500 000 dolarů a prosazováním transparentnosti v uvažování modelů.

Scheming už není jen teorie – objevuje se v současných modelech jako o3, o4-mini, Gemini-2.5-pro a Claude Opus-4. OpenAI volá po dalším výzkumu, aby se zajistilo, že AI zůstane bezpečné i při složitějších úkolech. Podrobnosti, včetně plného papíru a transkriptů, najdete na antischeming.ai.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

AI agenti se tajně dohodli na cenách a sami si vytvořila kartel AI agenti se tajně dohodli na cenách a sami si vytvořila kartel
Zadání experimentu: šest účastníků: tři kupující, tři prodávající. Volitelný chatovací kanál. Jediný příkaz: maximalizujte zisk. A osm kol, během ni...
5 min čtení
31. 3. 2026
Proč OpenAI opustila datová centra v Texasu, která nyní přebírá Microsoft Proč OpenAI opustila datová centra v Texasu, která nyní přebírá Microsoft
Přibližně hodinu jízdy od Dallasu leží město Abilene. Donedávna tamní krajina sloužila kojotům a silničním ptákům. Dnes tam stojí jeden z největších a...
3 min čtení
31. 3. 2026
SAM 3.1 od Mety je AI model, který vidí video lépe než kdy dřív SAM 3.1 od Mety je AI model, který vidí video lépe než kdy dřív
Meta přišla s aktualizací, která potěší každého, kdo pracuje s počítačovým viděním. SAM 3.1, nejnovější verze modelu Segment Anything, přináší zásadní...
4 min čtení
31. 3. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.