Nová studie od Googlu přináší překvapivé zjištění: pokročilé AI modely jako DeepSeek-R1 a QwQ-32B dosahují vysoké přesnosti tím, že interně simulují debatu mezi různými perspektivami, osobnostními rysy a odbornostmi. Tento koncept, který výzkumníci nazvali "společnost myšlenek", dramaticky zlepšuje výkon modelů při řešení složitých úloh. Studie ukazuje, že modely trénované pomocí reinforcement learningu spontánně vyvinuly schopnost vést tyto interní konverzace bez explicitních instrukcí.
Jak funguje společnost myšlenek?
Základní myšlenka vychází z kognitivní vědy – lidské uvažování se primárně vyvinulo jako sociální proces k řešení problémů prostřednictvím argumentace a zapojení různých úhlů pohledu. Kognitivní diverzita, která pramení z rozdílů v odbornosti a osobnostních rysech, zlepšuje řešení problémů, zejména když je doprovázena autentickým nesouhlasem.
U modelů jako DeepSeek-R1 se tato "společnost" projevuje přímo v řetězci myšlenek. Nepotřebujete samostatné modely ani speciální prompty – debata vzniká autonomně v rámci uvažovacího procesu jediné instance modelu.
Konkrétní příklady
Studie poskytuje hmatatelné důkazy. V experimentu zahrnującím složitý problém organické chemie DeepSeek-R1 simuloval debatu mezi různými interními perspektivami, včetně "Plánovače" a "Kritického Ověřovatele".
Plánovač nejprve navrhl standardní reakční cestu. Kritický Ověřovatel (charakterizovaný vysokou svědomitostí a nízkou přívětivostí) však zasáhl s výhradou: "Počkat, to nemůže být správně... je to cyclohexa-1,3-dien, ne benzen." Prostřednictvím této protikladné kontroly model objevil chybu, sladil konfliktní pohledy a opravil syntetickou cestu.
Podobná dynamika se objevila i v kreativních úlohách. Při přepisování věty model simuloval vyjednávání mezi "Kreativním Ideátorem" a "Kontrolorem Sémantické Věrnosti". Po návrhu ideátora kontrolor namítl: "Ale to přidává 'hluboce zakořeněný', což v originálu nebylo. Měli bychom se vyhnout přidávání nových myšlenek."
Nejpůsobivější evoluce nastala v "Countdown Game", matematické hádance kde je cílem je zkombinovat šest náhodných čísel pomocí základních aritmetických operací tak, abyste dosáhli (nebo se co nejvíce přiblížili) tříciferného cílového čísla. Zpočátku model řešil problém monologickým přístupem. Jak se učil pomocí reinforcement learningu, spontánně se rozdělil na dvě odlišné persony: "Metodického Řešitele Problémů" provádějícího výpočty a "Průzkumného Myslitele" monitorujícího pokrok, který přerušoval neúspěšné cesty poznámkami jako "Opět žádné štěstí... Možná můžeme zkusit použít záporná čísla."
Důkazy z aktivačního prostoru
Nejpřesvědčivější důkazy pocházejí z použití Sparse Autoencoders k inspekci aktivací DeepSeek-R1-Llama-8B. Výzkumníci identifikovali specifický prvek v reziduálním proudu (vrstva 15, prvek 30939), který funguje jako diskurzní značka pro překvapení, uvědomění nebo potvrzení (často se aktivuje u tokenů jako "Oh!" nebo "Počkat").
Když výzkumníci uměle řídili tento prvek pomocí aktivačního přidání, pozorovali kauzální spojení s výkonem. Zvýšení síly řízení na +10 u aritmetické úlohy Countdown téměř zdvojnásobilo přesnost uvažování z 27,1 % na 54,8 %. Naopak negativní řízení prvku potlačilo konverzační chování a zhoršilo výkon.
Experimenty s posilováním učení
Výzkumníci provedli kontrolované experimenty pomocí frameworku Verl s Proximal Policy Optimization (PPO). Použili model Qwen-2.5-3B jako základ a porovnali standardní baseline s modelem "připraveným" prostřednictvím Supervised Fine-Tuning (SFT) na syntetických multi-agentních dialozích.
Výsledky byly pozoruhodné: modely připravené na konverzaci se učily výrazně rychleji. Po 40 krocích RL tréninku dosáhl model připravený na konverzaci přibližně 38% přesnosti, zatímco model připravený na monolog zaostal na 28 %.
Co plyne z výzkumu?
James Evans, spoluautor studie, zdůrazňuje praktické dopady: "Nestačí 'vést debatu', ale mít různé pohledy a dispozice, které činí debatu nevyhnutelnou a umožňují jí zkoumat a rozlišovat mezi alternativami." Pro vývojáře to znamená přestat čistit tréninková data od "nepořádku". Modely doladěné na konverzačních datech (například přepisy multi-agentních debat a řešení) zlepšují uvažování výrazně rychleji než ty trénované na čistých monolozích. Evans dodává: "Trénovali jsme na konverzačním lešení, které vedlo ke špatné odpovědi, pak jsme model posílili a zjistili jsme, že fungoval stejně dobře jako posílení na správné odpovědi, což naznačuje, že konverzační návyky zkoumání řešení byly nejdůležitější pro nové problémy."
Studie také poskytuje nový argument pro open-weight modely oproti uzavřeným API, protože transparentnost interních debat se stává klíčovou pro důvěryhodnost v kritických aplikacích.
