Co přináší Mistral 3?

Francouzská společnost Mistral AI právě představila svou novou rodinu modelů nazvanou Mistral 3. Tato rodina zahrnuje velký model Mistral Large 3 a devět menších modelů pod názvem Ministral 3. Všechny tyto modely jsou otevřené, což znamená, že jejich váhy jsou veřejně dostupné pod licencí Apache 2.0. To umožňuje komukoli je stáhnout a používat. Modely podporují multimodální funkce, jako je zpracování textu i obrázků, a fungují v mnoha jazycích, včetně češtiny.

Mistral Large 3 je postavený na architektuře směsi expertů (mixture-of-experts, MoE), kde má 41 miliard aktivních parametrů a celkem 675 miliard parametrů. Trénování probíhalo na 3000 grafických procesorech NVIDIA H200. Tento model dosahuje vysoké efektivity díky tomu, že aktivuje jen potřebné části sítě pro každý token. Má kontextové okno o velikosti 256 tisíc tokenů, což umožňuje zpracovávat dlouhé dokumenty. Podle benchmarků se umisťuje na druhém místě mezi otevřenými modely bez pokročilého uvažování na žebříčku LMArena.

Menší modely Ministral 3 přicházejí ve velikostech 3 miliardy, 8 miliard a 14 miliard parametrů. Každá velikost má tři varianty: base (základní předtrénovaná), instruct (optimalizovaná pro konverzace a asistenty) a reasoning (pro složité logické úlohy). Tyto modely dosahují vysoké přesnosti, například 85% na testu AIME 2025 u varianty s 14 miliardami parametrů. Jsou navržené pro běh na jednom GPU, což je činí vhodnými pro zařízení bez stálého připojení k internetu, jako jsou laptopy, roboti nebo drony.

Výhody pro podniky a vývojáře

Podle Guillaume Lample, spoluzakladatele a hlavního vědce v Mistral AI, firmy často začínají s velkými uzavřenými modely, ale pak přecházejí na menší, přizpůsobené verze kvůli nižším nákladům a rychlosti. Mistral 3 nabízí právě to – možnost přizpůsobení pro specifické úkoly, jako je analýza dokumentů, tvorba kódu nebo automatizace pracovních postupů. Ministral 3 generuje méně tokenů než srovnatelné modely, což snižuje spotřebu energie a zvyšuje rychlost.

Společnost Mistral AI spolupracuje s firmami jako Helsing na modelech pro drony, které kombinují vidění, jazyk a akce, nebo se Stellantis na asistenta do aut. Dále pracuje s agenturou HTX v Singapuru na modelech pro roboty, kybernetickou bezpečnost a požární ochranu. Tyto modely běží offline, což je klíčové pro místa s omezeným připojením, jako jsou vzdálené oblasti nebo studentské projekty.

Optimalizace a dostupnost

Mistral AI úzce spolupracuje s Nvidií na optimalizaci modelů pro jejich hardware. Mistral Large 3 dosahuje desetinásobného zrychlení na systému GB200 NVL72 oproti předchozí generaci NVIDIA H200. To znamená nižší náklady na token a vyšší energetickou efektivitu. Menší modely Ministral 3 jsou přizpůsobené pro edge zařízení, jako Nvidia Spark, RTX počítače, laptopy nebo Jetson zařízení.

Dále Mistral spolupracuje s vLLM a Red Hat na komprimovaných formátech, jako NVFP4, což umožňuje běh Large 3 na jednom uzlu s 8x A100 nebo H100. Modely jsou dostupné na platformách jako Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI a Together AI. Brzy přibudou Nvidia NIM a AWS SageMaker.

Mistral AI nabízí i služby pro vlastní trénování modelů na specifických datech, což pomáhá firmám vytvářet řešení na míru. Modely podporují frameworky typu TensorRT-LLM, SGLang a vLLM pro efektivní nasazení od cloudu po edge.

Multimodální schopnosti

Všechny modely v rodině Mistral 3 zpracovávají nejen text, ale i obrázky, což je činí vhodnými pro úkoly jako popis obrázků nebo kombinované analýzy. Podporují přes 40 jazyků, což je výhoda pro globální použití. Například Large 3 je první otevřený model, který kombinuje multimodální a multijazyčné funkce v jednom balení, srovnatelně s modely jako Meta Llama 3 nebo Alibaba Qwen3-Omni.

Menší modely Ministral 3 mají kontextové okno 128 tisíc až 256 tisíc tokenů, což umožňuje zpracovávat dlouhé konverzace nebo dokumenty. Varianty reasoning dosahují vysoké přesnosti v testech jako GPQA, kde překonávají srovnatelné modely ve své třídě.

Tato rodina modelů je navržená tak, aby byla přístupná všem – od vývojářů po velké firmy. Mistral AI zdůrazňuje, že AI by nemělo být ovládáno jen několika velkými laboratořemi, a proto vše uvolňuje otevřeně.

Další zdroje: techcrunch.com

Kategorie: AI