Proč pokrok v umělé inteligenci není o inovacích, ale o datech

Umělá inteligence udělala za posledních patnáct let neuvěřitelný pokrok. Tento pokrok může působit nevyhnutelně – i když skutečně převratné objevy jsou vzácné, AI přesto postupuje kontinuálně dopředu. Někteří výzkumníci dokonce vyhlásili "Mooreův zákon pro AI", podle něhož se schopnost počítačů vykonávat určité úkoly zvyšuje exponenciálně s časem. Každý rok se naše AI systémy stávají chytřejší, rychlejší a levnější, přičemž konec není v dohlednu.

Výzkumné úspěchy versus stagnace

Výzkumná komunita z MIT, Stanford, CMU a průmyslových gigantů jako Meta a Google přinesla významné pokroky. Například v roce 2022 Stanford představil FlashAttention, v roce 2023 Google vyvinul spekulativní dekódování, v roce 2024 vznikl optimalizátor Muon a v roce 2025 DeepSeek vydal DeepSeek-R1.

Přesto se nejnovější modely jako Grok 3 a GPT-4.5 zlepšily jen okrajově.

Čtyři klíčové průlomy v AI

Pokud se podíváme na skutečné změny paradigmatu, najdeme čtyři klíčové momenty:

1. Hluboké neuronové sítě: AlexNet vyhrál soutěž v rozpoznávání obrazů v roce 2012.

2. Transformery + LLM: Google navrhl transformery v práci "Attention Is All You Need" (2017), což vedlo k BERT (Google, 2018) a GPT (OpenAI, 2018).

3. RLHF: Poprvé představeno v práci InstructGPT od OpenAI v roce 2022.

4. Uvažování: OpenAI vydalo O1 v roce 2024, následováno DeepSeek R1.

Staré myšlenky, nové datové zdroje

Není šílené tvrdit, že všechny základní mechanismy těchto průlomů existovaly v 90. letech. Učení s učitelem vzniklo z práce Claudea Shannona ve 40. letech, posilovací učení lze vysledovat k metodám policy-gradient z roku 1992.

Klíčové však je, že každý průlom odemkl nový zdroj dat:

1. AlexNet odemkl ImageNet – velkou databázi označených obrázků.

2. Transformery odemkly trénování na celém internetu.

3. RLHF umožnilo učit se z lidských hodnocení "dobrého textu".

4. Uvažování využívá "verifikátory" jako kalkulačky a kompilátory.

Data vs. nové nápady

Výzkumníci zjistili, že různé architektury (transformery vs. state-space modely) dosahují podobných výsledků při trénování na stejných datech. To naznačuje, že existuje horní mez toho, co se můžeme naučit z dané datové sady. Všechny trénovací triky neobejdou fakt, že z dané datové sady se lze naučit jen tolik.

Budoucnost: Video a roboti

Náš další posun paradigmatu nebude pocházet z nových algoritmů, ale z nových datových zdrojů.

Video: Na YouTube se nahrává asi 500 hodin záznamu za minutu – mnohem více dat než veškerý text na internetu. Videa obsahují nejen slova, ale i intonaci a informace o fyzice a kultuře. Google pravděpodobně začne trénovat modely na YouTube, jakmile budou dostatečně efektivní.

Roboti: Systémy sběru dat ze senzorů a kamer by mohly být dalším velkým zdrojem, pokud dokážeme zpracovávat masivní příliv dat z robotů.

Je těžké předpovědět, zda YouTube, roboti nebo něco jiného bude Další Velkou Věcí. Ale pokud chceme učinit pokrok v AI, možná bychom měli přestat hledat nové nápady a začít hledat nová data.

Autor Jack Morris ve svém článku upozorňuje, že pokrok v umělé inteligenci není řízen novými algoritmy, ale spíše novými datovými sadami. Analýza čtyř klíčových momentů v historii AI ukazuje, že za každým průlomem stál přístup k novému typu dat, nikoli revolučně nová technologie.

Kategorie: AI