State of AI je empirická studie založená na analýze více než 100 bilionů tokenů reálného použití velkých jazykových modelů (LLM) na platformě OpenRouter. Studie se zaměřuje na období od konce roku 2024 do listopadu 2025 a zkoumá, jak lidé skutečně používají tyto modely v praxi – od typů úkolů přes geografické rozdíly až po trendy v retenci uživatelů. Data pocházejí z anonymizovaných metadat o miliardách interakcí, bez přístupu k samotnému textu promptů nebo odpovědí, a byla zpracována pomocí nástrojů jako GoogleTagClassifier pro kategorizaci. Studie zdůrazňuje posun od jednoduchých generování textu k složitějším procesům, jako je vícestupňové uvažování, a odhaluje, že otevřené modely nyní tvoří asi třetinu veškerého použití.
Rostoucí dominance otevřených modelů
V posledním roce došlo k výraznému nárůstu použití otevřených modelů, které mají veřejně dostupné váhy, oproti uzavřeným modelům s omezeným přístupem přes API. Podle dat z OpenRouter tvoří otevřené modely nyní přibližně 30 % celkového objemu tokenů, což je nárůst z minimálních hodnot na konci roku 2024. Tento růst souvisí s vydáním klíčových modelů, jako je DeepSeek V3, DeepSeek R1, Kimi K2, GPT OSS rodina a Qwen 3 Coder, které způsobily okamžité špičky v použití a udržely si ho i dlouhodobě.
Mezi otevřenými modely hrají významnou roli ty vyvinuté v Číně, jako Qwen od Alibaba nebo DeepSeek, které dosáhly průměrně 13 % týdenního objemu tokenů, s vrcholem až 30 % v některých týdnech. Naproti tomu otevřené modely ze zbytku světa, jako Meta LLaMA nebo Mistral AI, mají podobný podíl 13,7 %. Uzavřené modely, převážně ze Severní Ameriky, stále dominují s 70 %, ale otevřené varianty nabízejí výhody v ceně, transparentnosti a přizpůsobení, což je činí atraktivními pro specifické úkoly.
Největšími hráči mezi otevřenými modely podle celkového objemu tokenů jsou DeepSeek s 14,37 biliony tokenů, Qwen s 5,59 biliony, Meta LLaMA s 3,96 biliony a Mistral AI s 2,92 biliony. V průběhu roku 2025 se trh rozrůznil – žádný model nyní nedrží více než 25 % podílu mezi otevřenými, což naznačuje silnou konkurenci a rychlou adopci novinek, jako je Minimax M2 nebo MoonshotAI Kimi K2.
Dalším zajímavým zjištěním je posun ve velikostech modelů. Malé modely s méně než 15 miliardami parametrů ztrácejí podíl, zatímco střední modely (15 až 70 miliard parametrů) a velké (nad 70 miliard) rostou. Například Qwen2.5 Coder 32B vytvořil kategorii středních modelů v listopadu 2024, a nyní tyto modely představují vyváženou volbu mezi výkonem a efektivitou.
Programování vede v úkolech
Analýza kategorií ukazuje, že lidé používají LLM především pro kreativní roleplay a programování, což dohromady tvoří většinu objemu u otevřených modelů. Roleplay zabírá asi 52 % tokenů u otevřených modelů, často v podobě interaktivních her, příběhů nebo simulací, kde otevřené modely vynikají díky menším omezením v obsahu. Například u čínských otevřených modelů je roleplay na 33 %, ale programování a technologie dohromady dosahují 39 %.
Programování je druhou největší kategorií a rychle roste – jeho podíl na celkovém objemu tokenů stoupl z 11 % na začátku roku 2025 na více než 50 % v posledních týdnech. Uživatelé ho využívají pro generování kódu, ladění a skriptování, s průměrnou délkou promptů přes 20 tisíc tokenů. Mezi modely dominuje Anthropic Claude s více než 60 % podílem v této kategorii, následovaný OpenAI (8 %) a Google (15 %).
Další kategorie zahrnují překlad (s rovnoměrným rozdělením mezi cizojazyčnými zdroji), vědu (80,4 % o strojovém učení a AI) a zdraví (rozptýlené mezi výzkumem, poradenstvím a diagnostikou). Finance, akademie a právní oblasti jsou více fragmentované, bez dominantních podkategorií. Například u Anthropic Claude tvoří programování a technologie přes 80 % použití, zatímco u DeepSeek převažuje roleplay na dvě třetiny.
Vzestup agentického uvažování a složitějších interakcí
Jedním z nejvýraznějších trendů je posun k agentickému uvažování, kde modely nejen generují text, ale plánují, volají nástroje a interagují v delších kontextech. Modely optimalizované pro uvažování, jako OpenAI o1 (vydané 5. prosince 2024), nyní zpracovávají přes 50 % všech tokenů, oproti minimu na začátku roku 2025. Největší podíl má xAI Grok Code Fast 1, následovaný Google Gemini 2.5 Pro a Gemini 2.5 Flash.
Použití nástrojů (tool-calling) roste, s nárůstem podílu tokenů z minimálních hodnot na stabilní trend, převážně u modelů jako Claude Sonnet nebo Gemini Flash. Průměrná délka promptů vzrostla čtyřnásobně z 1,5 tisíce na více než 6 tisíc tokenů, a výstupů téměř trojnásobně z 150 na 400 tokenů, hlavně díky programování, kde sekvence dosahují 3–4násobku průměru.
Geografické a jazykové rozdíly
Použití LLM je globální, ale s výraznými regionálními variacemi. Severní Amerika tvoří 47,22 % objemu tokenů, Asie 28,61 % (s růstem z 13 % na 31 %), Evropa 21,32 %. Největšími zeměmi jsou USA (47,17 %), Singapur (9,21 %), Německo (7,51 %) a Čína (6,01 %). Angličtina dominuje s 82,87 % tokenů, následovaná zjednodušenou čínštinou (4,95 %), ruštinou (2,47 %) a španělštinou (1,43 %).
Studie odhaluje tzv. "Glass Slipper" efekt, kde rané skupiny uživatelů (foundational cohorts) zůstávají věrné modelu dlouhodobě, pokud najde perfektní shodu s jejich potřebami. Například u Claude 4 Sonnet si květnová kohorta 2025 udržela 40 % uživatelů po 5 měsících, oproti pozdějším kohortám s vysokým odchodem. Podobně u Gemini 2.5 Pro červnová kohorta vykazuje silnou retenci. U DeepSeek se objevuje "boomerang" efekt, kdy se uživatelé vracejí po vyzkoušení alternativ.
