Olmo 3.1: Posilování AI tréninkem bez velkých změn

Blog /

AI /

Olmo 3.1: Delší trénink posiluje AI bez velkých zmněn

Ondřej Barták

podnikatel a programátor

17. 12. 2025

2 minut čtení

Allenův institut pro umělou inteligenci, známý jako Ai2, představil svou dosud nejsilnější rodinu modelů s názvem Olmo 3.1. Tento vývoj přichází krátce po Olmo 3 a zaměřuje se na efektivitu, průhlednost a ovladatelnost. Místo toho, aby tým vymýšlel nové struktury, prostě prodloužil existující proces tréninku pomocí posilovacího učení (reinforcement learning). To znamená, že model se učí z chyb a úspěchů déle, což ho dělá lepším ve složitých úkolech, jako je matematika nebo vícestupňové řešení problémů.

Proč prodloužit trénink?

V otevřených modelech umělé inteligence často dochází k tomu, že se trénink zastaví příliš brzy kvůli vysokým nákladům. To vede k tomu, že modely zaostávají v těžkém uvažování nebo v následování instrukcí. Ai2 se rozhodl vrátit k otázce, jestli posilovací učení pomáhá i po tom, co první zisky slábnou. Odpověď je ano. Tým vzal stávající proces z Olmo 3 a nechal ho běžet déle – konkrétně o 21 dní navíc na 224 grafických procesorech (GPU). Tím posunuli model na 32 miliard parametrů, aniž by měnili jeho základní design. Výsledek? Model se zlepšil v matematice, kódování a složitých úkolech, což dokazuje, že velikost a trpělivost hrají klíčovou roli.

Co přesně bylo vydáno?

Ai2 aktualizoval dvě verze z Olmo 3: Olmo 3.1 Think 32B, který je optimalizovaný pro pokročilý výzkum, a Olmo 3.1 Instruct 32B, určený pro následování instrukcí, konverzace s více dialogy a používání nástrojů. Třetí verze Olmo 3-Base zůstala pro programování, porozumění a matematiku, vhodná pro další dolaďování. Kromě toho tým vylepšil modely RL-Zero 7B pro matematiku a kódování, které slouží jako základní reference pro výzkum. Všechny tyto modely jsou plně otevřené, což znamená, že kdokoli může vidět data, kód a rozhodnutí z tréninku.

Zlepšení výkonu a dostupnost

Nové modely přinesly viditelné zisky v testech. Olmo 3.1 Think 32B dosáhl o 5 bodů více v AIME, o 4 body více v ZebraLogic, o 4 body více v IFEval a o 20 bodů více v IFBench oproti Olmo 3 Think 32B. Také se zlepšil v kódování a složitém vícestupňovém uvažování. V benchmarku AIME 2025 překonal modely Qwen 3 32B a přiblížil se k Gemma 27B. Olmo 3.1 Instruct 32B zase exceluje v chatu, používání nástrojů a dialogu, kde překonal své otevřené konkurenty, včetně Gemma 3 v matematice. Podle Ai2 je Olmo 3.1 Instruct 32B jejich nejschopnější plně otevřený chatový model v měřítku 32 miliard parametrů. Modely RL-Zero 7B pro matematiku a kódování profitovaly z delšího a stabilnějšího tréninku.

Modely jsou dostupné ke stažení vah a checkpointů na platformě Hugging Face. Můžete je testovat v Ai2 Playground. Pro další úpravy slouží uvolněné datové sady a meziprodukty z tréninku, které umožňují dolaďování nebo prodloužení posilovacího učení. Brzy přijde i přístup přes API. Ai2 zdůrazňuje průhlednost – firmy mohou přidat vlastní data a přetrénovat model, aby se učil z nových informací. To je součástí dlouhodobého závazku Ai2 k otevřenému zdroji, včetně nástroje OlmoTrace, který sleduje, jak výstupy modelu odpovídají tréninkovým datům.

Zdroj: venturebeat.com

Komentáře

Chcete se zapojit do diskuze?

Buďte ve spojení s komunitou a získejte přístup k exkluzivnímu obsahu.

Zaregistrovat se Přihlásit se

Zatím žádné komentáře. Buďte první!

Líbil se vám tento článek?

Objevte další zajímavé příspěvky na blogu

Zpět na blog

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Vyzkoušet Editee zdarma

Související příspěvky

Chyby v Google AI Overviews, kterých jsou miliony a trvají už dva roky

V květnu 2024 zapnul Google funkci, která od základu změnila, jak vypadá výsledek vyhledávání. AI Overviews, tedy shrnutí psaná umělou inteligencí, se...

5 min čtení

26. 6. 2026

Dokument Evropa 2031: děsivá vize AI budoucnosti, kterou si v Bruselu předávají z ruky do ruky

Je rok 2031 a Evropa stojí před třemi mizernými možnostmi. Stát se americkým protektorátem. Předat budoucnost Číně. Nebo pomalu vyschnout v izolaci. J...

8 min čtení

26. 6. 2026

Šéf Claude Code o smyčkách v AI: proč vývojáři přestávají psát prompty a začínají navrhovat autonomní cykly

Boris Cherny, šéf Claude Code od Anthropiku, se na konferenci @Scale od Mety postavil před plný sál inženýrů a hned první otázka z publika ho zastavil...

3 min čtení

25. 6. 2026