Allenův institut pro umělou inteligenci, známý jako Ai2, představil svou dosud nejsilnější rodinu modelů s názvem Olmo 3.1. Tento vývoj přichází krátce po Olmo 3 a zaměřuje se na efektivitu, průhlednost a ovladatelnost. Místo toho, aby tým vymýšlel nové struktury, prostě prodloužil existující proces tréninku pomocí posilovacího učení (reinforcement learning). To znamená, že model se učí z chyb a úspěchů déle, což ho dělá lepším ve složitých úkolech, jako je matematika nebo vícestupňové řešení problémů.
Proč prodloužit trénink?
V otevřených modelech umělé inteligence často dochází k tomu, že se trénink zastaví příliš brzy kvůli vysokým nákladům. To vede k tomu, že modely zaostávají v těžkém uvažování nebo v následování instrukcí. Ai2 se rozhodl vrátit k otázce, jestli posilovací učení pomáhá i po tom, co první zisky slábnou. Odpověď je ano. Tým vzal stávající proces z Olmo 3 a nechal ho běžet déle – konkrétně o 21 dní navíc na 224 grafických procesorech (GPU). Tím posunuli model na 32 miliard parametrů, aniž by měnili jeho základní design. Výsledek? Model se zlepšil v matematice, kódování a složitých úkolech, což dokazuje, že velikost a trpělivost hrají klíčovou roli.
Co přesně bylo vydáno?
Ai2 aktualizoval dvě verze z Olmo 3: Olmo 3.1 Think 32B, který je optimalizovaný pro pokročilý výzkum, a Olmo 3.1 Instruct 32B, určený pro následování instrukcí, konverzace s více dialogy a používání nástrojů. Třetí verze Olmo 3-Base zůstala pro programování, porozumění a matematiku, vhodná pro další dolaďování. Kromě toho tým vylepšil modely RL-Zero 7B pro matematiku a kódování, které slouží jako základní reference pro výzkum. Všechny tyto modely jsou plně otevřené, což znamená, že kdokoli může vidět data, kód a rozhodnutí z tréninku.
Zlepšení výkonu a dostupnost
Nové modely přinesly viditelné zisky v testech. Olmo 3.1 Think 32B dosáhl o 5 bodů více v AIME, o 4 body více v ZebraLogic, o 4 body více v IFEval a o 20 bodů více v IFBench oproti Olmo 3 Think 32B. Také se zlepšil v kódování a složitém vícestupňovém uvažování. V benchmarku AIME 2025 překonal modely Qwen 3 32B a přiblížil se k Gemma 27B. Olmo 3.1 Instruct 32B zase exceluje v chatu, používání nástrojů a dialogu, kde překonal své otevřené konkurenty, včetně Gemma 3 v matematice. Podle Ai2 je Olmo 3.1 Instruct 32B jejich nejschopnější plně otevřený chatový model v měřítku 32 miliard parametrů. Modely RL-Zero 7B pro matematiku a kódování profitovaly z delšího a stabilnějšího tréninku.
Modely jsou dostupné ke stažení vah a checkpointů na platformě Hugging Face. Můžete je testovat v Ai2 Playground. Pro další úpravy slouží uvolněné datové sady a meziprodukty z tréninku, které umožňují dolaďování nebo prodloužení posilovacího učení. Brzy přijde i přístup přes API. Ai2 zdůrazňuje průhlednost – firmy mohou přidat vlastní data a přetrénovat model, aby se učil z nových informací. To je součástí dlouhodobého závazku Ai2 k otevřenému zdroji, včetně nástroje OlmoTrace, který sleduje, jak výstupy modelu odpovídají tréninkovým datům.
Zdroj: venturebeat.com
