Společnost Anthropic zveřejnila výsledky odvážného experimentu, při kterém 16 instancí AI modelu Claude Opus 4.6 pracovalo téměř autonomně na vytvoření kompilátoru jazyka C. Projekt vedl Nicholas Carlini, výzkumník z týmu Safeguards společnosti Anthropic, který agenty nechal pracovat na sdílené kódové bázi s minimálním lidským dohledem.
Dva týdny práce a 100 tisíc řádků kódu
Během dvou týdnů a téměř 2 000 relací Claude Code AI agenti vytvořili kompilátor napsaný v jazyce Rust, který obsahuje 100 000 řádků kódu. Celkové náklady na API dosáhly necelých 20 000 dolarů (přibližně 410 000 Kč). Výsledný kompilátor dokáže zkompilovat bootovatelné jádro Linux 6.9 na architekturách x86, ARM a RISC-V.
Carlini použil novou funkci nazvanou "agent teams" (týmy agentů), která byla spuštěna společně s modelem Claude Opus 4.6. Každá instance Claude běžela ve vlastním Docker kontejneru, klonovaly si sdílený Git repozitář, rezervovaly si úkoly pomocí zámkových souborů a po dokončení nahrávaly kód zpět. Žádný orchestrační agent nedohlížel na práci – každá instance nezávisle identifikovala problém, který se zdál nejzřejmější, a začala ho řešit. Když vznikly konflikty při slučování kódu, AI agenti je vyřešili sami.
Co kompilátor dokáže a kde má limity
Výsledný kompilátor, který Anthropic zveřejnil na GitHubu, dokáže zkompilovat řadu významných open source projektů včetně PostgreSQL, SQLite, Redis, FFmpeg a QEMU. Dosáhl 99% úspěšnosti v testovací sadě GCC torture test suite a v tom, co Carlini nazval "ultimátním testem vývojáře", zkompiloval a spustil hru Doom.
Carlini však byl upřímný ohledně jasných limitů kompilátoru. Chybí mu 16bitový x86 backend potřebný pro bootování Linuxu z reálného režimu, takže pro tento krok volá GCC. Vlastní assembler a linker zůstávají chybové. I se všemi povolenými optimalizacemi produkuje méně efektivní kód než GCC se všemi optimalizacemi vypnutými. Kvalita kódu v Rustu je sice funkční, ale nedosahuje úrovně expertního Rust programátora.
"Výsledný kompilátor téměř dosáhl limitů schopností Opusu," napsal Carlini. "Snažil jsem se (opravdu!) opravit několik výše uvedených omezení, ale nebyl jsem plně úspěšný. Nové funkce a opravy chyb často narušovaly existující funkcionalitu."
Lidská práce za automatizací
Ačkoli Anthropic popisuje kompilátor jako "clean-room implementaci" (čistou implementaci), protože agenti během vývoje neměli přístup k internetu, toto označení je poněkud zavádějící. Základní model byl trénován na obrovském množství veřejně dostupného zdrojového kódu, téměř jistě včetně GCC, Clang a mnoha menších C kompilátorů.
Částka 410 000 Kč také zaslouží kontext. Toto číslo pokrývá pouze náklady na API tokeny a nezahrnuje miliardy vynaložené na trénování modelu, lidskou práci, kterou Carlini investoval do budování infrastruktury, ani desetiletí práce kompilátorových inženýrů, kteří vytvořili testovací sady a referenční implementace.
Carlini strávil značné úsilí budováním testovacích prostředí, pipeline pro kontinuální integraci a systémů zpětné vazby přizpůsobených specifickým způsobům, jakými jazykové modely selhávají. Zjistil například, že podrobný výstup testů znečišťoval kontextové okno modelu, což způsobovalo, že ztrácelo přehled o tom, co dělá. Také zjistil, že Claude nemá smysl pro čas a stráví hodiny spouštěním testů bez pokroku, takže vytvořil rychlý režim, který vzorkuje pouze 1 % až 10 % testovacích případů.
Reakce vývojářské komunity a Carliniho
Reakce na GitHubu byly méně jednoznačné. Uživatel mohswell napsal: "Kdybych šel do supermarketu, ukradl kousek každého chleba, který měli, a nacpal to dohromady, nikdo by neřekl, že jsem udělal chléb od nuly. Řekli by, že jsem zloděj." Uživatel Sambit003 poznamenal: "Čím delší AI generované kódy vidím... tím bezpečněji se cítím. Stále máme práci (na dost dlouhých let)... jen si užívejte přehánění."
Carlini sám přiznal, že se cítí rozporuplně ohledně vlastních výsledků. "Budování tohoto kompilátoru byla jedna z největších zábav, kterou jsem měl v poslední době, ale nečekal jsem, že to bude tak brzy v roce 2026 vůbec možné," napsal. Vyjádřil také obavy vycházející z jeho předchozí kariéry v penetračním testování a poznamenal, že "myšlenka programátorů nasazujících software, který nikdy osobně neověřili, je skutečným problémem."
Projekt demonstruje, že před rokem by žádný jazykový model nemohl vytvořit nic podobného funkčnímu multi-architekturnímu kompilátoru, ani s tímto druhem dohledu a neomezeným rozpočtem. Model narazil na strop přibližně při 100 000 řádcích kódu, což naznačuje praktický limit pro autonomní agentní kódování, alespoň s aktuálními modely.
Zdroje: arstechnica.com a theregister.com
