Vrátit se na blog

Blog /

AI /

CUDA Agent: ByteDance naučil umělou inteligenci psát rychlejší GPU kód bez jediného programátora

Ondřej Barták

podnikatel a programátor

4. 3. 2026

4 minut čtení

Poslechněte si článek

Audio verze článku

Optimalizace GPU kódu je jedna z nejtěžších disciplín v softwarovém inženýrství. Nestačí napsat kód, který funguje. Musí být taky rychlý. A to je úplně jiná hra. Většina vývojářů se spokojí s tím, že kód projde testy. Jenže u CUDA jader to nestačí. Správný výsledek a rychlý výsledek jsou dvě různé věci. A přesně tenhle problém se rozhodli řešit výzkumníci z ByteDance Seed a Tsinghua University. A výsledek? Systém zvaný CUDA Agent, který překonává standardní kompilátory i přední jazykové modely světa.

Co je CUDA Agent?

CUDA Agent je systém posíleného učení ve velkém měřítku, jehož cílem je automaticky generovat a optimalizovat CUDA jádra pro hluboké učení. Zní to technicky, ale podstata je jednoduchá: jde o AI agenta, který se naučil psát rychlý GPU kód tím, že byl odměňován za skutečnou rychlost na hardwaru, ne jen za správnost výstupu.

Většina dosavadních přístupů fungovala jinak. Generuj kód, zkontroluj, jestli se zkompiluje, případně oprav chyby. Hotovo. Jenže výkon GPU závisí na věcech, které žádný test správnosti neodhalí: na přístupu do paměti, obsazenosti výpočetních jednotek, sdílené paměti nebo konfliktech v paměťových bankách. Tohle vidíte jen v profileru.

CUDA Agent mění pravidlo odměňování. Místo "zkompiloval se kód?" se ptá "je kód rychlejší než torch.compile?" A to o nejméně 5 %.

Výsledky nechávají konkurenci daleko za sebou

Výsledky testování na benchmarku KernelBench (250 GPU jader rozdělených do tří úrovní obtížnosti) jsou působivé. CUDA Agent dosáhl celkové rychlosti 2,11x oproti torch.compile a v 96,8 % případů byl rychlejší než tento standardní kompilátor PyTorche. Pro srovnání: Claude Opus 4.5 dosáhl zrychlení 1,46x a Gemini 3 Pro 1,42x. Na nejtěžší třetí úrovni, kde jde o složená fúzovaná jádra jako celé bloky ResNetu, CUDA Agent překonal oba modely o 40 procentních bodů v podílu případů rychlejších než torch.compile (90 % vs. 50 % a 52 %).

Ještě zajímavější je srovnání se základním modelem. Seed 1.6 bez trénování posíleným učením dosahoval pouze 0,69x — byl tedy pomalejší než torch.compile. Po tréninku stejná architektura skočila na 2,11x. To je trojnásobné zlepšení čistě díky způsobu trénování.

KernelBench výsledky - Základní model (Seed 1.6) začíná na 0,69x - ve skutečnosti je pomalejší než torch.compile. Po trénování RL dosáhne stejná architektura rychlosti 2,11x. To je 3násobné zlepšení efektivního zrychlení o — KernelBench výsledky - Základní model (Seed 1.6) začíná na 0,69x - ve skutečnosti je pomalejší než torch.compile.

Jak agent přemýšlí a pracuje

Agent pracuje ve smyčce stylu ReAct: analyzuje výkon, identifikuje úzká hrdla, napíše vlastní CUDA jádro, zkompiluje ho, otestuje a pak optimalizuje dál. Může provést až 200 kroků na jeden úkol v kontextovém okně o délce 131 tisíc tokenů.

Optimalizace probíhají ve třech vrstvách. Nejprve algoritmické změny s největším dopadem: fúze jader, sdílená paměť, koalescovaný přístup do paměti. Pak optimalizace využití hardwaru: vektorizované načítání dat, warp primitiva, ladění obsazenosti. A nakonec jemné doladění: smíšená přesnost, rozbalování smyček, vyhýbání se konfliktům v paměti.

Aby agent nepodváděl, systém obsahuje pět ochranných mechanismů: chráněné skripty pro profilování, zákaz záložních volání PyTorche, ověření správnosti na pěti různých vstupech, synchronizované měření výkonu a žádný přístup na internet.

Trénink, který málem selhal

Tady přichází ta nejzajímavější část příběhu. Základní model Seed 1.6 je 230miliardový řídký model MoE s 23 miliardami aktivních parametrů. CUDA kód tvoří méně než 0,01 % jeho předtréninkových dat. Tohle nesoulad málem celý projekt pohřbil. Bez speciálního vícefázového zahřívání se trénink zhroutil už v 17. kroku. Příčina: tokeny CUDA mají v modelu pravděpodobnost kolem 10⁻⁹, což způsobovalo explozi poměrů vzorkování v algoritmu PPO (optimalizace proximální politiky).

Řešení přišlo ve čtyřech fázích: nejprve jednorázové PPO zahřívání na 6 000 syntetických operátorů, pak filtrování trajektorií a doladění pod dohledem, poté předtrénování kritika pro stabilní odhady hodnot, a nakonec plné agentní posílené učení. Každá fáze je nezbytná. Vynechání agentní smyčky srazí podíl rychlejších jader z 96,8 % na pouhých 14,1 %.

Co je veřejně dostupné a co zůstává za zavřenými dveřmi

Výzkumný tým zveřejnil vědecký článek, projektovou stránku a trénovací datovou sadu CUDA-Agent-Ops-6K na platformě Hugging Face. Tato sada obsahuje 6 000 synteticky vytvořených operátorů s důkladnou kontrolou kontaminace vůči testovacím datům.

Váhy samotného natrénovaného modelu ale veřejně dostupné nejsou. Základní Seed 1.6 je přístupný přes API ByteDance, ale plný CUDA Agent zůstává za zavřenými dveřmi. ByteDance zároveň udržuje menší projekt cudaLLM postavený na modelu Qwen3-8B, který je dostupný pod licencí Apache 2.0 a nabízí přístupnější alternativu pro výzkumníky s omezenými výpočetními zdroji.

Otázka, která visí ve vzduchu: kdy ByteDance model otevře? Metoda je prokázaná. Výsledky jsou přesvědčivé. A pokud AI agent dokáže konzistentně překonávat standardní kompilátory na reálném hardwaru, mohlo by to zásadně změnit způsob, jakým vznikají výpočetní knihovny pro hluboké učení. To by byl skutečný posun pro celý obor.

Kategorie: AI