Jak Anthropic postavila budoucnost AI výzkumu na spolupráci více agentů

Claude od společnosti Anthropic nyní disponuje výzkumnou funkcí (Research feature), která umožňuje prohledávat web, Google Workspace a další integrované služby pro řešení složitých úkolů. Tento systém využívá několik agentů Claude pracujících současně, což představuje zásadní odklon od tradičních jednoduchých AI asistentů. Tým vývojářů vedený Jeremy Hadfield, Barry Zhang, Kenneth Lien, Florian Scholz, Jeremy Fox a Daniel Ford sdílí poznatky z této cesty od prototypu k produkčnímu nasazení.

Cesta od experimentálního systému k produkční verzi naučila vývojáře klíčové lekce o architektuře systému, designu nástrojů a inženýrství promptů (prompt engineering). Víceagentní systém se skládá z více agentů - velkých jazykových modelů autonomně využívajících nástroje v cyklu - kteří spolupracují. Jejich výzkumná funkce zahrnuje agenta, který plánuje výzkumný proces na základě uživatelských dotazů a poté využívá nástroje k vytvoření paralelních agentů, kteří současně vyhledávají informace.

Proč víceagentní systémy vyhrávají nad jednotlivými modely

Výzkumná práce zahrnuje otevřené problémy, kde je velmi obtížné předpovědět potřebné kroky předem. Nelze napevno zakódovat pevnou cestu pro zkoumání složitých témat, protože proces je inherentně dynamický a závislý na průběhu. Když lidé provádějí výzkum, mají tendenci kontinuálně aktualizovat svůj přístup na základě objevů a následovat stopy, které se objeví během vyšetřování.

Tato nepředvídatelnost činí AI agenty obzvláště vhodnými pro výzkumné úkoly. Podstata vyhledávání je komprese - destilace poznatků z rozsáhlého korpusu. Podagenti usnadňují kompresi tím, že pracují paralelně se svými vlastními kontextovými okny a současně zkoumají různé aspekty otázky, než kondenzují nejdůležitější tokeny pro hlavního výzkumného agenta.

Interní hodnocení společnosti Anthropic ukázalo, že víceagentní výzkumné systémy vynikají zejména u dotazů typu "breadth-first" (prohledávání do šířky), které zahrnují současné sledování více nezávislých směrů. Zjistili, že víceagentní systém s Claude Opus 4 jako hlavním agentem a Claude Sonnet 4 podagenty předčil jednoagentní Claude Opus 4 o 90,2 % na jejich interním výzkumném hodnocení. Například když byl požádán o identifikaci všech členů představenstev společností v informačních technologiích S&P 500, víceagentní systém našel správné odpovědi rozložením tohoto úkolu na úkoly pro podagenty, zatímco systém s jedním agentem selhal při nalezení odpovědi s pomalými, sekvenčními vyhledáváními.

Architektura a fungování systému v praxi

Výzkumný systém společnosti Anthropic používá víceagentní architekturu se vzorem orchestrátor-dělník (orchestrator-worker pattern), kde hlavní agent koordinuje proces a deleguje na specializované podagenty, kteří pracují paralelně. Když uživatel zadá dotaz, hlavní agent jej analyzuje, vypracuje strategii a vytvoří podagenty pro současné zkoumání různých aspektů.

Podagenti fungují jako inteligentní filtry iterativním používáním vyhledávacích nástrojů pro shromažďování informací a poté vracení seznamu společností hlavnímu agentovi, aby mohl sestavit konečnou odpověď. Tradiční přístupy používající rozšířenou generaci s vyhledáváním (Retrieval Augmented Generation - RAG) používají statické vyhledávání - načtou některé části, které jsou nejpodobnější vstupnímu dotazu, a používají tyto části k vygenerování odpovědi. Naproti tomu jejich architektura používá vícekrokové vyhledávání, které dynamicky nachází relevantní informace, přizpůsobuje se novým zjištěním a analyzuje výsledky pro formulaci vysoce kvalitních odpovědí.

Technické výzvy a řešení

Systémy s více agenty rychle spalují tokeny. V jejich datech agenti obvykle používají asi 4krát více tokenů než chatovací interakce a víceagentní systémy používají asi 15krát více tokenů než chaty. Pro ekonomickou životaschopnost vyžadují víceagentní systémy úkoly, kde je hodnota úkolu dostatečně vysoká, aby zaplatila za zvýšený výkon.

Vývojáři museli vyřešit problémy s koordinací agentů - ranní agenti dělali chyby jako vytváření 50 podagentů pro jednoduché dotazy, nekonečné prohledávání webu pro neexistující zdroje a rozptylování se navzájem nadměrnými aktualizacemi. Protože každý agent je řízen promptem, inženýrství promptů bylo jejich primární pákou pro zlepšení těchto chování.

Hodnocení a testování v reálném provozu

Hodnocení víceagentních systémů představuje jedinečné výzvy. Tradiční hodnocení často předpokládají, že AI následuje stejné kroky pokaždé, ale víceagentní systémy takto nefungují. I se stejnými výchozími body mohou agenti zvolit zcela odlišné platné cesty k dosažení svého cíle. Místo kontroly, zda agenti následovali "správné" kroky předepsané předem, potřebují flexibilní metody hodnocení, které posuzují, zda agenti dosáhli správných výsledků a současně následovali rozumný proces.

Společnost Anthropic začala s hodnocením malými vzorky asi 20 dotazů reprezentujících skutečné vzorce používání. Používali také hodnotitele postaveného na LLM, který hodnotil každý výstup podle kritérií: faktická přesnost, přesnost citací, úplnost, kvalita zdrojů a efektivita nástrojů. Lidské hodnocení zachycuje to, co automatizace přehlédne - včetně halucinovaných odpovědí na neobvyklé dotazy nebo jemných předsudků při výběru zdrojů.

Uživatelé říkají, že Claude jim pomohl najít obchodní příležitosti, které nezvažovali, orientovat se ve složitých možnostech zdravotní péče, vyřešit složité technické chyby a ušetřit až dny práce objevením výzkumných spojení, které by sami nenašli. Nejčastější způsoby používání zahrnují vývoj softwarových systémů (10 %), vývoj profesionálního obsahu (8 %), obchodní strategie (8 %), akademický výzkum (7 %) a ověřování informací (5 %).

Kategorie: AI