Vrátit se na blog

Blog /

AI /

Amazon ignoruje AI benchmarky, protože nejsou přesné!

Ondřej Barták

podnikatel a programátor

3. 12. 2025

3 minut čtení

Dnes se velké firmy jako OpenAI, Anthropic a Google předhánějí v žebříčcích výkonnosti umělé inteligence, ale Amazon říká: "Nesledujte ty tabulky." To je hlavní myšlenka z nedávných oznámení na konferenci AWS re:Invent v Las Vegas. Rohit Prasad, viceprezident Amazonu pro AGI (umělou obecnou inteligenci), to vysvětlil předem. Podle něj tyto benchmarky, což jsou testy výkonnosti modelů, neodrážejí skutečnou sílu AI. "Chci reálnou užitečnost. Žádný z těchto benchmarků není opravdový," řekl Prasad. A důvod? Každý používá jiná trénovací data a testy nejsou dostatečně oddělené, takže výsledky jsou plné šumu a neodhalují pravou sílu modelů.

Amazon to bere jinak. Místo honby za prvními místy v žebříčcích jako LMArena, kde předchozí verze jejich modelu Nova skončila na 79. pozici, se soustředí na praktické využití. Prasad zdůraznil, že benchmarky nefungují, protože nejsou standardizované – všichni by museli mít stejná data a testy by musely být úplně oddělené a to se neděje. Takže tyto žebříčky jsou spíš marketingovým trikem než měřítkem skutečné hodnoty.

Nova Forge

Hlavní novinkou je služba Nova Forge, kterou Amazon představil jako způsob, jak firmy mohou trénovat vlastní AI modely bez miliardových nákladů. Problém, který Forge řeší, je opravdový: většina firem má tři špatné volby. Buď upravují uzavřený model jen na okrajích, nebo trénují otevřené modely bez původních dat a riskují, že model zapomene na široké znalosti, a nebo staví všechno od nuly za obrovské peníze.

Forge to dělá jinak. Poskytuje přístup k checkpointům modelu Nova v různých fázích – před tréninkem, uprostřed a po něm. Firmy tak mohou vložit svá vlastní data brzy, když je model nejvíc "učenlivý", jak to Prasad popsal. "Demokratizovali jsme vývoj pokročilých modelů pro vaše potřeby za zlomek ceny," řekl. Tento nástroj vznikl proto, že ho chtěly interní týmy Amazonu – podobně jako AWS (cloudová služba Amazonu) začala jako interní nástroj pro jejich obchod a stala se hlavním zdrojem zisku.

Forge už využívá Reddit

Reddit už Forge testuje na vlastních bezpečnostních modelech, trénovaných na 23 letech dat z moderování komunit. Chris Slowe, technický ředitel a první zaměstnanec Redditu řekl: "Ještě jsem nic podobného neviděl." Jejich inženýr se prý chová jako dítě v cukrárně. Minulý týden spustili trénink, který vypadá slibně. Cílem je nahradit několik specializovaných modelů jedním, který chápe nuance moderování, včetně subjektivního pravidla "Nebuď hulvát", které je všude na subredditech.

Slowe vysvětlil, že Forge umožňuje Redditu ovládat své modely, vyhnout se změnám v API od jiných poskytovatelů, vlastnit váhy modelů a neposílat citlivá data ven. Už plánují podobný přístup pro Reddit Answers a další produkty. Když se zeptali, jestli vadí, že Nova není na vrcholu benchmarků, Slowe byl přímočarý: "V tomhle kontextu záleží na expertize modelu vůči Redditu." Amazon tak zdůrazňuje kontrolu a specializaci místo surové inteligence.

Infrastruktura nad inteligencí

Amazon sází na to, že závod v modelech se stal komoditou a uspěje tím, že nabídne místo, kde firmy postaví AI na míru pro konkrétní problémy. To je typický přístup AWS: infrastruktura a přizpůsobení nad surovou výkonností. Tím se vyhýbají přímému srovnání s OpenAI nebo Anthropicem, se kterými dříve chtěli soutěžit na úrovni modelů.

Úspěch Forge závisí na tom, jestli ho vývojáři přijmou. Amazon tvrdí, že tradiční závod v modelech nezáleží. Pokud to bude pravda, měřítko úspěchu se posune k tomu, jestli AI opravdu přináší reálnou hodnotu v praxi.

Zdroj: theverge.com

Kategorie: AI