Google začal s myšlenkou na speciální čipy pro umělou inteligenci už v roce 2006, ale skutečný tlak přišel v roce 2013. Tehdy si uvědomili, že pokud chtějí rozšířit AI ve velkém, museli by zdvojnásobit počet svých datacenter. Proto spustili vývoj TPU, které šly do výroby v roce 2016. Na rozdíl od Amazonu, který se v té době soustředil na optimalizaci pro obecné výpočty, Google cílil přímo na AI.
Obchod s Anthropicem a dalšími
TPU se ukázaly jako špičkové systémy pro trénink a inferenci AI modelů, srovnatelné s Nvidia. Například model Gemini 3, jeden z nejlepších na světě, byl celý trénován na TPU. Google teď TPU prodává i externím zákazníkům, jako je Anthropic, Meta, Safe Superintelligence (SSI) nebo xAI, což ohrožuje pozici Nvidie.
Anthropic uzavřel obří dohodu s Googlem na více než 1 gigawatt TPU. To zahrnuje 400 tisíc kusů TPU verze 7 Ironwood, které Anthropic kupuje přímo od Broadcomu za asi 10 miliard dolarů (přibližně 230 miliard Kč). Zbylých 600 tisíc kusů si Anthropic pronajímá přes Google Cloud za odhadovaných 42 miliard dolarů (asi 966 miliard Kč).
Tento obchod pomáhá Anthropicu diverzifikovat se od Nvidie. Google poskytl Anthropicu speciální podmínky, včetně investic bez hlasovacích práv a limitu 15 % vlastnictví. Anthropic trénoval modely jako Sonnet a Opus 4.5 na TPU, což jim umožnilo snížit ceny API o 67 % a zlepšit efektivitu tokenů. Opus 4.5 potřebuje o 76 % méně tokenů než Sonnet pro stejný výkon.
Další firmy jako Meta, SSI, xAI a OpenAI se zajímají o TPU, protože vidí příležitost ve snížení nákladů. OpenAI už díky hrozbě přechodu na TPU ušetřil asi 30 % na své flotile Nvidia GPU, aniž by TPU nasadil.
Výkon a cena TPUv7 oproti Nvidii
TPUv7 Ironwood má podobný výkon jako Nvidia GB200, ale s nižšími náklady. Každý čip TPUv7 nabízí skoro stejné teoretické FLOPs jako GB200, s 8-Hi HBM3E pamětí o kapacitě 192 GB a šířkou pásma blízko té od Nvidie. Na rozdíl od Nvidie, které nafukuje teoretické čísla, TPU udává realističtější hodnoty.
Celkové náklady na vlastnictví (TCO) jsou pro TPUv7 o 44 % nižší než pro GB200 z pohledu Googlu. Pro externí zákazníky jako je Anthropic to znamená až 30 % úsporu oproti GB200 a 41 % oproti GB300. To díky efektivnějšímu využití – TPU dosahuje vyšší modelové využití FLOPs (MFU) až 40 %, což snižuje cenu za efektivní FLOP o 52 % oproti GB300.
TPUv7 je vyráběno na procesu N3 s většími systolickými poli (256x256 oproti 128x128 u předchozích) pro lepší výpočty. Má méně paměti než GB300 (192 GB vs. 288 GB), ale v praxi to kompenzuje lepší efektivitou, zvlášť při inferenci, kde je důležitá šířka pásma paměti.
Systémová architektura TPUv7
TPUv7 je navrženo pro velké škálování. Základní jednotka je rack s 64 TPU čipy, spojenými v 4x4x4 3D torus síti. Každý čip se spojuje se šesti sousedy přes Inter-Chip Interconnect (ICI), což umožňuje superpod až 9216 čipů.
V racku je 16 TPU trayů, každý s 4 čipy, plus hostitelské CPU traye. Pro chlazení se používá kapalina s regulovanými ventily pro efektivitu – proud se upravuje podle zátěže. Spojení uvnitř racku jsou přes měděné kabely, venkovní přes optické transceivery a optické spínače (OCS).
Tento design je jednodušší než Nvidia Oberon NVL72, bez složitých backplane. Google používá vertikální napájení a bateriové zálohy pro spolehlivost. To vše umožňuje vysokou dostupnost a nižší výpadky, což je klíčové pro velké AI modely.
TPU software není tak snadný jako CUDA od Nvidie, ale pro velké firmy jako Anthropic to není problém. Mají experty z Googlu, kteří optimalizují kernely pro vysokou efektivitu. Google teď otevírá ekosystém, včetně XLA kompilátoru, aby přilákal více zákazníků.
To ohrožuje Nvidii, která reagovala ujištěním, že je stále vpředu. Ale s modely jako Gemini 3, který exceluje v úkolech jako je Vending Bench (simulace podniku), TPU dokazuje svou sílu. Anthropic s TPU dosáhl nového rekordu v SWE-Bench pro kódování.
Google tak mění trh AI hardwaru, nabízí levnější alternativu a tlačí na diverzifikaci.
Zdroj: newsletter.semianalysis.com
