Microsoft v březnu vydal MAI-Image-2, svůj druhý vlastní model pro generování obrazu z textu. Model se skoro hned umístil na třetí místo na globálním žebříčku Arena.ai, těsně za Googlem a OpenAI.
Microsoft byl dlouho vnímán především jako největší investor OpenAI. Copilot, Bing Image Creator, celá vizuální stránka jejich produktů stála na cizích základech. MAI-Image-2 tohle vše mění. Tým Microsoft AI Superintelligence, vedený Mustafou Suleymanem, se rozhodl jít vlastní cestou a výsledek překvapil i skeptiky. Model vznikal v úzké spolupráci s fotografy, designéry a vizuálními tvůrci. Model byl navržen přímo z praxe. A to je na něm vidět.
Co vše umí nový MAI-Image-2?
Tři věci, ve kterých model exceluje: fotorealismus, generování textu v obraze a komplexní scény.
Fotorealismus není jen marketingové slovo. Microsoft vyřešil problém, který trápil generativní AI od začátku: takzvanou „plastovou" pleť. Spolupráce s profesionálními fotografy pomohla doladit algoritmy pro věrné podání textur a fyziky osvětlení. Portréty z MAI-Image-2 vypadají jako ze studia, ne jako z počítače.
Pak je tu typografie. Nárůst o 115 bodů v benchmarku přesnosti textu je číslo, které grafici ocení okamžitě. Infografiky, bannery, plakáty s čitelným textem přímo v obraze. A co je pro české uživatele zásadní: model nativně zvládá českou diakritiku. Háčky, čárky, žádné komolení. To byla dosud bolest číslo jedna při nasazování AI v českém marketingu.

Třetí silná stránka jsou komplexní scény. Surrealistické koncepty, filmové kompozice, detailní světy. MAI-Image-2 si s nimi poradí.
Technicky vzato: Flow-matching a až 50 miliard parametrů
Pod kapotou běží architektura postavená na metodě flow-matching difuze, která umožňuje plynulejší přechod od digitálního šumu k čistému obrazu než běžné modely. Odhadovaný rozsah parametrů je 10 až 50 miliard, výstupní rozlišení aktuálně fixováno na 1024x1024 pixelů a kontextové okno dosahuje 32 000 tokenů, což umožňuje zpracovat i velmi detailní a složitá zadání bez ztráty logiky.
Bezplatná verze v rámci Copilotu má svá omezení: 30 sekund prodleva mezi generováními, limit 15 obrázků za den a pouze čtvercový formát 1:1. Plný potenciál se odemyká v Microsoft Foundry, kde firmy mohou model ladit na vlastních brandových datech.

Kde MAI-Image-2 najdete a kolik to stojí?
Model je dostupný přes MAI Playground na microsoft.ai, postupně se zavádí do Copilotu a Bing Image Creator, u nás je zatím nedostupný. Firemní API přístup mají zatím vybraní zákazníci. Širší přístup přes Microsoft Foundry přijde brzy. Cenově: individuální kreativci zaplatí za Copilot Pro přibližně 3 499 Kč ročně se 100 prioritními generováními denně. Malé a střední firmy mohou do června 2026 získat Microsoft 365 Copilot za 15,60 EUR měsíčně při roční platbě.
MAI-Image-2 vs. Midjourney: Kdo vyhrává?
Záleží na tom, co potřebujete.
Midjourney v7 stále vede v oblasti estetické koherence a uměleckého výrazu. Pokud hledáte snové vizuály nebo abstraktní koncepty, je to stále váš nástroj. Ale jakmile potřebujete marketingový banner s přesným textem, infografiku s českou diakritikou nebo produktové fotografie s přirozeným osvětlením, MAI-Image-2 nemá v tuto chvíli srovnatelnou konkurenci.
Rychlost generování je srovnatelná s Draft módem Midjourney, ale při plném rozlišení. A model je podle Microsoftu energeticky úspornější než předchozí generace, což ladí s firemními cíli udržitelnosti.
Bezpečnost dat pro firmy
Microsoft postavil MAI-Image-2 na principu Tenant Isolation: vaše firemní data zůstávají v izolovaném prostředí a nikdy neslouží k trénování veřejných modelů. Veškeré vstupy i výstupy podléhají režimu Enterprise Data Protection.
Každý vygenerovaný obraz navíc nese metadata standardu C2PA, neviditelné vodoznaky odolné proti ořezu i kompresi. To je přímá odpověď na blížící se EU AI Act, jehož klíčový článek 50 vstupuje v platnost v srpnu 2026.
Microsoft také rozšířil závazek Customer Copyright Commitment: pokud uživatel dodržuje vestavěné bezpečnostní filtry a pracuje v rámci placené licence, Microsoft přebírá právní odpovědnost za případné spory o duševní vlastnictví. Pro české firmy je to pojistka, která výrazně snižuje bariéru pro plošné nasazení.
Grafici se nestávají zbytečnými, ale mění roli
Nasazení MAI-Image-2 do PowerPointu zkracuje tvorbu profesionálních prezentací z průměrných čtyř hodin na 45 minut. Ve Wordu model funguje jako vizuální asistent, který čte kontext dokumentu a automaticky navrhuje relevantní ilustrace. V Teams umožňuje funkce Visual Canvas společnou tvorbu vizuálů přímo během hovoru.
Grafici se nestávají zbytečnými. Přestávají překreslovat slidy a začínají definovat vizuální strategii. Místo manuální exekutivy nastupuje role manažera.
Mustafa Suleyman predikuje, že většina administrativních a kreativních úkolů bude plně automatizována do 12 až 18 měsíců. Jestli má pravdu, ukáže čas. Ale MAI-Image-2 je přesvědčivý první krok tímto směrem.
