Environmentální náklady umělé inteligence rostou exponenciálně
Umělá inteligence radikálně mění způsob komunikace na všech úrovních - od individuálních interakcí až po organizační a společenské výměny. Zatímco tyto technologie zvyšují rychlost, kreativitu a personalizaci komunikace, přinášejí také vážné výzvy související s předsudky, soukromím a správou dat. Stejně důležitou, ale často přehlíženou otázkou jsou environmentální náklady těchto technologií.
Nová studie od badatelů Maximilian Dauner a Gudrun Socher z Munich Center for Digital Sciences and AI (MUC.DAI) na HM Hochschule München University of Applied Sciences odhaluje šokující fakta o environmentálních dopadech velkých jazykových modelů (LLM). Jejich výzkum představuje komplexní vyhodnocení environmentálních nákladů LLM analýzou jejich výkonu, používání tokenů a emisí ekvivalentu CO2 u 14 různých modelů s parametry od 7 do 72 miliard.
Metodologie výzkumu
Výzkumníci testovali rozmanitou škálu jazykových modelů, včetně Meta's Llama3.1 modelů (Grattafiori et al., 2024) s 8 miliardami a 70 miliardami parametrů, jakož i model Llama3.3 (Grattafiori et al., 2024) se 70 miliardami parametrů. Dále zahrnuli Alibaba's Qwen modely (Bai et al., 2023) a Qwen2.5 modely (Qwen et al., 2025), každý se 7 miliardami a 72 miliardami parametrů. Studie také analyzovala dva reasoning modely vyvinuté společností Deep Cogito s 8 miliardami a 70 miliardami parametrů, které fungují jak ve standardním režimu generování textu, tak v reasoning režimu. Součástí výzkumu byly i Deepseek R1 modely (DeepSeek-AI et al., 2025) speciálně navržené pro logické uvažování s variantami 7 miliard, 8 miliard a 70 miliard parametrů.
Všechny modely dostaly za úkol odpovědět na stejných 500 otázek z různých oblastí. Otázky a jejich správné odpovědi byly extrahovány z datasetu Massive Multitask Language Understanding (MMLU) (Hendrycks et al., 2021). Dataset MMLU vyhodnocuje multitask přesnost v rozmanitých znalostních doménách a obsahuje 15 908 otázek s více možnostmi výběru z 57 předmětů včetně inženýrství, matematiky, humanitních věd a společenských věd.
Překvapivé výsledky testování
Experimenty byly prováděny na lokálním Nvidia A100 GPU s 80 GB paměti, což umožnilo přesné měření spotřeby energie, využití paměti a času odezvy během vyhodnocování modelů. Měření byla provedena pomocí frameworku Perun, navrženého pro energetické benchmarking vysoce výkonných výpočetních aplikací (Gutiérrez Hermosillo Muriedas et al., 2023). Pro výpočet asociovaných emisí CO2eq byl použit emisní faktor 480 gCO2/kWh, který představuje nejnovější globální průměr odrážející současné trendy k zvýšenému využívání obnovitelných zdrojů energie.
Ve fázi multiple-choice dosáhl nejvyšší přesnosti reasoning-enhanced Cogito 70B model s 91,0% správných odpovědí, následovaný Deepseek R1 70B reasoning modelem s 85,0% a Qwen 2.5 72B modelem s 80,2%. Ve fázi free-response stejná varianta Cogito opět obsadila první místo s 78,8%, těsně před Cogito 70B ve standardním textovém režimu (76,4%) a Qwen 2.5 72B (75,0%).
Alarmující emisní bilance
Celkové emise CO2eq vyjádřené v gramech ekvivalentu CO2 potřebné k zpracování kompletní sady 500 MMLU otázek odhalují dramatické rozdíly mezi modely. Ve fázi multiple-choice se emise pohybovaly od pouhých 1,25 g CO2eq pro výchozí Cogito 8B model až po 717,31 g CO2eq pro Deepseek-R1 70B model. Reasoning-enabled varianty generovaly podstatně více emisí než jejich standardní protějšky - například Cogito 70B reasoning: 411,72g oproti Cogito 70B default: 8,20g.
Ve fázi free-response se rozsah ještě více rozšířil, od nejnižších 26,28 g CO2eq pro Qwen 7B až po alarmujících 1 325,12 g CO2eq pro Deepseek-R1 70B. Reasoning režimy způsobily 4× až 6× nárůst emisí ve srovnání s režimy pouze pro text.
Při zkoumání kombinovaných emisí CO2eq a celkové přesnosti napříč všemi 1 000 otázkami se objevují jasné kompromisy mezi velikostí modelu, hloubkou uvažování a environmentálními náklady. Nejmenší model Qwen 7B emituje pouze 27,7 g CO2eq s nejnižší stopou, ale dosahuje jen 32,9% přesnosti. Naopak největší reasoning model Deepseek-R1 70B způsobuje 2 042,4 g CO2eq a dosahuje 78,9% přesnosti.
Analýza podle předmětů
Analýza podle předmětů odhaluje významnou variabilitu ve výkonu napříč různými doménami. Multiple-choice přesnost byla konzistentně nejvyšší v High School World History s průměrem 76,3% správných odpovědí na model, pravděpodobně kvůli faktické povaze otázek umožňující snadnější vybavení nebo rozpoznání. Naopak Abstract Algebra představovala největší výzvu s průměrem pouze 51,4% správných odpovědí, což odráží její vyšší složitost a abstraktní koncepční požadavky.
Ve free-response režimu modely dosáhly nejvyšších skóre v High School Mathematics s průměrem 69,4% správných odpovědí na model, pravděpodobně díky explicitním numerickým výpočtům. Naopak otázky Philosophy, vyžadující nuancované a subjektivní uvažování, predstavovaly značné výzvy s průměrem pouze 52,1% správných odpovědí.
Tokenová analýza odhaluje skryté náklady
Analýza generování tokenů dále zdůrazňuje výpočetní náklady uvažování. Token je jednotka textu, jako je slovo, část slova nebo jednotlivý znak, který je převeden na numerickou reprezentaci, aby ho LLM mohl zpracovat (Gastaldi et al., 2025). Ve studii se rozlišuje mezi response tokeny (tokeny tvořící finální odpověď modelu) a thinking tokeny (dodatečné tokeny generované reasoning-enabled modely před produkcí odpovědi).
V multiple-choice nastavení modely generovaly průměrně 37,7 response tokenů na otázku, zatímco reasoning-enabled varianty vyžadovaly dodatečných 543,5 thinking tokenů. Podle předmětů High School Mathematics způsobovala nejdelší odpovědi (průměrně 83,3 tokenů), zatímco Abstract Algebra vyžadovala nejvyšší thinking overhead (průměrně 865,5 tokenů).
Ve free-response režimu se průměrné délky odpovědí zvýšily na 435,2 tokenů. Nejkratší free-text odpovědi (dva tokeny) se vyskytly u Qwen 2.5 72B modelu na Philosophy, zatímco nejdelší jednotlivý výstup (37 575 tokenů) vygeneroval Cogito 8B reasoning model na Abstract Algebra.
Diskuse a závěry
Analýza kombinovaných emisí CO2eq, přesnosti a generování tokenů napříč všemi 1 000 otázkami odhaluje jasné trendy a kompromisy mezi velikostí modelu, složitostí uvažování a environmentálním dopadem. S růstem velikosti modelu má přesnost tendenci se zlepšovat, ale tento zisk je také spojen s podstatným růstem jak emisí CO2eq, tak počtu generovaných tokenů.
Pozoruhodně reasoning-enabled Cogito 70B model demonstruje lepší rovnováhu výkon-efektivita, dosahuje nejvyšší přesnosti 84,9%, relativní zlepšení o 7,6 procentních bodů oproti Deepseek-R1 70B, zatímco emituje o 34,3% méně CO2eq (1 341,1 g). To naznačuje, že přidání reasoning komponenty k velkým modelům může podstatně zlepšit přesnost bez proporcionálního nárůstu environmentálního dopadu.
Limitace a budoucí výzkum
Ačkoli tato studie porovnává rozmanitou škálu jazykových modelů s různými architekturami, tréninkovými datasety, počty parametrů a reasoning rutinami, nálezy nejsou snadno přenositelné na jiné modelové rodiny. Kvůli těmto strukturálním a architektonickým rozdílům je generalizace výsledků na modely s výrazně odlišnými návrhy omezená.
Všechny emise byly měřeny pod specifickým hardwarovým a energetickým profilem, jmenovitě s použitím NVIDIA A100 80GB GPU a emisního faktoru 480 gCO2/kWh. Tyto hodnoty silně závisí na zvolené infrastruktuře a místní energetické síti, a výsledky se mohou výrazně lišit s různými hardwarovými nastaveními nebo emisními základnami.
Budoucí práce by mohla rozšířit toto vyšetřování zahrnutím širší škály modelů, včetně těch, které jsou fine-tuned pro specifické úkoly napříč rozmanitými doménami. Například by bylo cenné analyzovat, zda modely specializované na generování kódu fungují lépe na programovacích úkolech a zda taková specializace vede k nižším emisím CO2eq ve srovnání s obecnými LLM.
Studie jasně ukazuje, že zatímco větší a reasoning-enhanced modely výrazně překonávají menší protějšky z hlediska přesnosti, toto zlepšení přichází s příkrými nárůsty emisí a výpočetních požadavků. Optimalizace efektivity uvažování a stručnosti odpovědí je klíčová pro pokrok směrem k udržitelnějším a environmentálně zodpovědnějším technologiím umělé inteligence.
