Proč pokrok v umělé inteligenci není o inovacích, ale o datech
Umělá inteligence udělala za posledních patnáct let neuvěřitelný pokrok. Tento pokrok může působit nevyhnutelně – i když skutečně převratné objevy jsou vzácné, AI přesto postupuje kontinuálně dopředu. Někteří výzkumníci dokonce vyhlásili "Mooreův zákon pro AI", podle něhož se schopnost počítačů vykonávat určité úkoly zvyšuje exponenciálně s časem. Každý rok se naše AI systémy stávají chytřejší, rychlejší a levnější, přičemž konec není v dohlednu.
Výzkumné úspěchy versus stagnace
Výzkumná komunita z MIT, Stanford, CMU a průmyslových gigantů jako Meta a Google přinesla významné pokroky. Například v roce 2022 Stanford představil FlashAttention, v roce 2023 Google vyvinul spekulativní dekódování, v roce 2024 vznikl optimalizátor Muon a v roce 2025 DeepSeek vydal DeepSeek-R1.
Přesto se nejnovější modely jako Grok 3 a GPT-4.5 zlepšily jen okrajově.
Čtyři klíčové průlomy v AI
Pokud se podíváme na skutečné změny paradigmatu, najdeme čtyři klíčové momenty:
1. Hluboké neuronové sítě: AlexNet vyhrál soutěž v rozpoznávání obrazů v roce 2012.
2. Transformery + LLM: Google navrhl transformery v práci "Attention Is All You Need" (2017), což vedlo k BERT (Google, 2018) a GPT (OpenAI, 2018).
3. RLHF: Poprvé představeno v práci InstructGPT od OpenAI v roce 2022.
4. Uvažování: OpenAI vydalo O1 v roce 2024, následováno DeepSeek R1.
Staré myšlenky, nové datové zdroje
Není šílené tvrdit, že všechny základní mechanismy těchto průlomů existovaly v 90. letech. Učení s učitelem vzniklo z práce Claudea Shannona ve 40. letech, posilovací učení lze vysledovat k metodám policy-gradient z roku 1992.
Klíčové však je, že každý průlom odemkl nový zdroj dat:
1. AlexNet odemkl ImageNet – velkou databázi označených obrázků.
2. Transformery odemkly trénování na celém internetu.
3. RLHF umožnilo učit se z lidských hodnocení "dobrého textu".
4. Uvažování využívá "verifikátory" jako kalkulačky a kompilátory.
Data vs. nové nápady
Výzkumníci zjistili, že různé architektury (transformery vs. state-space modely) dosahují podobných výsledků při trénování na stejných datech. To naznačuje, že existuje horní mez toho, co se můžeme naučit z dané datové sady. Všechny trénovací triky neobejdou fakt, že z dané datové sady se lze naučit jen tolik.
Budoucnost: Video a roboti
Náš další posun paradigmatu nebude pocházet z nových algoritmů, ale z nových datových zdrojů.
Video: Na YouTube se nahrává asi 500 hodin záznamu za minutu – mnohem více dat než veškerý text na internetu. Videa obsahují nejen slova, ale i intonaci a informace o fyzice a kultuře. Google pravděpodobně začne trénovat modely na YouTube, jakmile budou dostatečně efektivní.
Roboti: Systémy sběru dat ze senzorů a kamer by mohly být dalším velkým zdrojem, pokud dokážeme zpracovávat masivní příliv dat z robotů.
Je těžké předpovědět, zda YouTube, roboti nebo něco jiného bude Další Velkou Věcí. Ale pokud chceme učinit pokrok v AI, možná bychom měli přestat hledat nové nápady a začít hledat nová data.
Autor Jack Morris ve svém článku upozorňuje, že pokrok v umělé inteligenci není řízen novými algoritmy, ale spíše novými datovými sadami. Analýza čtyř klíčových momentů v historii AI ukazuje, že za každým průlomem stál přístup k novému typu dat, nikoli revolučně nová technologie.
