V roce 1973 změnilo ropné embargo svět. Přes noc se z něčeho, co fungovalo jako běžná infrastruktura, stala strategická surovina, o kterou se bojovalo, která se hromadila a se kterou se obchodovalo. Dnes se přesně totéž děje s výpočetním výkonem pro umělou inteligenci. Jen místo ropy jde o GPU čipy.
Firmy je skupují do zásoby. Spekulativní investiční fondy do nich investují. Vlády omezují jejich vývoz. A na trzích začínají vznikat první mechanismy, jak s výpočetním výkonem obchodovat podobně jako s komoditami. Co přesně tato změna znamená a proč většina AI týmů stále dělá zásadní chybu při výběru infrastruktury?
Proč se GPU staly tím, oč se perou státy i korporace
Dlouhá léta fungoval výpočetní výkon předvídatelně. Každých šest měsíců byl rychlejší a levnější, vývojáři mohli prostě počkat. To se zlomilo ve chvíli, kdy velké jazykové modely ukázaly, že výkon je tím hlavním, co pohání schopnosti umělé inteligence. Trénování GPT-3 vyžadovalo stovky takzvaných petaflop-dní výpočetního výkonu. Novější modely jako GPT-4 nebo Gemini Ultra potřebovaly výrazně víc. Každý krok výše v kvalitě modelu znamená exponenciální nárůst požadovaného výkonu při trénování.
Výsledkem je, že poptávka po špičkových čipech pro umělou inteligenci, zejména NVIDIA H100 a novějších modelech H200 a B100, naprosto předběhla nabídku. Proč to nejde rychle napravit? Výroba čipu na té nejvyšší úrovni je jedním z nejsložitějších výrobních procesů na světě. NVIDIA navrhuje čipy, ale jejich výroba závisí na pokročilých výrobních procesech firmy TSMC na Tchaj-wanu. Celý dodavatelský řetězec, od návrhu čipu přes balení až po nasazení v datovém centru, trvá roky. Výstavba moderního datového centra pro umělou inteligenci vyžaduje výkon 50 až 150 megawattů a trvá klidně 18 až 36 měsíců.
K tomu přidejme americká exportní omezení zavedená od roku 2022, která dál štěpí globální nabídku. Cenový dopad byl velice rychlý. Když přišly na trh čipy H100, pronájem na cloudových platformách stál zhruba 2 až 4 dolary za GPU na hodinu. Na konci roku 2023 se na volném trhu ceny vyšplhaly na 8 a více dolarů, někdy ještě výš. Takhle se chovají komoditní trhy při narušení nabídky.
Komodita, nebo ne? Tady se rozcházejí názory
Právě tady začíná zajímavá debata. Pohled zvenku svádí k jednoduchému závěru: GPU jsou standardizované, ceny jsou srovnatelné napříč poskytovateli, H100 je H100. Logika komodity sedí. Jenže Robert Brooks IV., Chief Commercial Officer společnosti Lambda, která provozuje cloudovou infrastrukturu, a jeden z jejích zakládajících členů, s tím nesouhlasí.
"Kdybyste navštívili datové centrum během výstavby, ne po ní, odpověď by byla zřejmá," říká Brooks. Na jednom z větších projektů Lambdy pracovalo současně 3 000 lidí. Tisíce mechanických, elektrických a instalatérských komponent musí do sebe zapadnout, aby jeden GPU cluster fungoval spolehlivě. Za každým API voláním stojí fyzická realita, u které Brooks osobně nosí ocelové boty a ochrannou přilbu.
Přirovnání s letectvím je výstižné. Nikdo si nekupuje letenku bez toho, aby věděl, s jakou leteckou společností letí a jakým letadlem. Zákazníci v oblasti výpočetního výkonu by se měli ptát úplně stejně: které datové centrum, jaká třída, kdo ho provozuje a jestli nejde o přestavěný prostor po kryptoměnovém provozu.
Dva týmy, stejný rozpočet a zcela jiný výsledek
Výzkumníci z Lambda popsali konkrétní scénář, který ukazuje, o co přesně jde. Dva týmy připraví 8 192 GPU pro velký tréninkový proces. Stejný model, stejná datová sada, stejný rozpočet.
První tým dostane zařízení postavené přímo pro potřeby umělé inteligence, dostatečnou hustotu výkonu, kapalinové chlazení, vysokovýkonnou síťovou infrastrukturu a inženýry, kteří podobné tréninkové procesy ladili již dříve. Zaručená dostupnost systému je 99,995 % s plně záložním napájením a chlazením. Cílového výkonu dosáhnou za čtyři dny.
Druhý tým skončí ve standardním zařízení s nižší zálohou, vzdušným chlazením a podpůrným týmem, který umí restartovat uzly, ale nikdy nediagnostikoval selhání tréninku na tisících GPU. Po třech týdnech druhý tým nedokončil jediný užitečný tréninkový cíl. Faktura za výpočetní čas přitom tikala celou dobu.
Nejde jen o teoretické scénáře. Lambda ve vlastním výzkumu Model FLOPs Utilization zdokumentovala, jak se podařilo zvýšit využití výpočetního výkonu při tréninku modelu Llama-3.1-70B z 23,83 % na 50,20 %. Model ani datová sada se nezměnily. Změnila se konfigurace infrastruktury. Při takovém rozdílu trvá to, co by zabralo měsíce, jen týdny a účet za výpočetní výkon je hned na polovině.
Kde se skrývá skutečný problém: tři vrstvy, které rozhodují
Výpočetní výkon pro umělou inteligenci nestojí jen na čipech samotných. Lambda identifikovala tři oblasti, které určují, jestli model vznikne za týdny nebo za měsíce.
Poloha a kvalita datového centra jsou zásadní, protože po výstavbě clusteru se většina základních vlastností nedá změnit. Datová centra se dělí do čtyř tříd. Třída 3 je navržena pro souběžnou údržbu, třída 4 přidává odolnost vůči chybám tak, aby jediné selhání zařízení nebo přerušení distribuce vůbec neovlivnilo provoz. Lambda pracuje výhradně se zařízeními třídy 3 a 4.
Způsob návrhu clusteru rozhoduje o tom, co ve výsledku dostanete. Počet GPU je pouze jeden vstup. Skutečným produktem je nepřerušený čas akcelerátorů. Ten závisí na napájení, chlazení, síťové infrastruktuře, úložišti, orchestraci a inženýrech, kteří dokáží pracovní zátěž pro daný cluster optimalizovat. Hustota výpočetního výkonu je omezena celým zařízením, ne jen smlouvou o dodávce elektrické energie.
Kdo cluster ladí je třetí vrstva, která je nejčastěji přehlížená. Infrastruktura umělé inteligence se vyvíjí rychleji, než stačí datová centra reagovat. Generace GPU, požadavky na chlazení a energetické nároky se mění každých 12 až 13 měsíců. Týmy, které z clusterů vytahují plný výkon, pracují souběžně na třech úrovních: fyzická infrastruktura, systémové inženýrství a optimalizace pracovních zátěží strojového učení. Většina poskytovatelů pokrývá jen část z toho.
Státy, fondy a první futures trhy
Výpočetní výkon přitahuje zájem, který byl dříve vyhrazen jen pro fyzické suroviny. NVIDIA se v roce 2024 stala nejhodnotnější firmou světa, mimo jiné proto, že sedí na křižovatce celého AI dodavatelského řetězce. Americká exportní omezení na pokročilé čipy pro umělou inteligenci jsou explicitně navržena tak, aby Číně znemožnila nashromáždit dostatek výpočetního výkonu pro trénování těch nejmodernějších modelů. G7 diskutuje o koordinaci v oblasti dodavatelských řetězců AI čipů.
Na finančních trzích začínají vznikat mechanismy podobné futures kontraktům, kde si kupující dopředu zajišťují přístup k výpočetnímu výkonu za pevnou cenu. Logika je stejná jako u ropy: víte, že za šest měsíců budete potřebovat velký GPU cluster pro tréninkový proces, a nechcete riskovat ani zdražení, ani nedostupnost. Firmy jako CoreWeave podepisují s AI laboratořemi dlouhodobé smlouvy o dodávkách výpočetního výkonu, které ekonomicky fungují přesně jako klasické dodávkové kontrakty.
Pro firmy, které výpočetní výkon jen využívají a samy ho neprovozují, to celé znamená jediné: výběr poskytovatele infrastruktury přestal být technickým detailem a stal se strategickým rozhodnutím, které ovlivní rychlost, náklady a to, jestli vůbec projekt úspěšně vznikne.
Zdroje: thedeepview.com a mindstudio.ai
