Microsoft AI právě oznámil svůj první text-to-image generátor (nástroj pro tvorbu obrázků z textu) vyvinutý kompletně interně, který nese název MAI-Image-1. Tento model se ihned umístil mezi deseti nejlepšími text-to-image systémy na soutěžní tabulce LMArena, kde lidé porovnávají výstupy různých AI systémů a hlasují pro ty nejlepší. Podle oficiálního oznámení na stránkách byl Microsoft AI model trénován s cílem poskytovat skutečnou hodnotu pro tvůrce, přičemž se zaměřili na pečlivý výběr dat a hodnocení založené na reálných kreativních scénářích. Tým sbíral zpětnou vazbu od profesionálů v kreativních oborech, aby se vyhnuli opakujícím se nebo příliš obecným výstupům.
Silné stránky v detailech
MAI-Image-1 vyniká především v generování fotorealistických obrázků, jako je osvětlení s odrazy světla, krajiny nebo složité textury. Například dokáže vytvořit obrázek ptáka chaparrala běžícího přes písečnou poušť s křovisky, kde je vidět modrá obloha a vzdálené stolové hory, nebo mladého muže v kabátě a džínách procházejícího městskou ulicí při západu slunce s budovami, venkovním posezením kavárny a jízdním kolem v pozadí, kde teplé sluneční světlo vytváří dramatický zlatý lesk. Další příklad je nápis „MAI-Image-1“ napsaný ve vlhkém písku na pláži při západu slunce s jemnými vlnami a zářící oranžovou oblohou. Tyto detaily pocházejí přímo z ukázek na stránkách Microsoft AI a zdůrazňují, jak model zpracovává složité prvky jako odrazy světla nebo přirozené prostředí lépe než mnohé větší a pomalejší modely.

Rychlost a praktické využití
Jednou z hlavních výhod MAI-Image-1 je jeho rychlost – zpracovává požadavky a produkuje obrázky rychleji než některé rozsáhlejší systémy, což umožňuje uživatelům rychle vizualizovat nápady, upravovat je a pak je přenést do jiných nástrojů pro další zpracování. Tento model představuje další fázi v cestě Microsoftu k vlastním AI řešením. Tento přístup umožňuje větší flexibilitu a vizuální rozmanitost, což je ideální pro oblasti jako reklama, design nebo tvorba digitálního obsahu. Model přijímá textové i obrazové vstupy až do 5000 tokenů a jedné fotografie, a výstupem je obrázek ve formátu PNG nebo JPG, jak je popsáno v dokumentaci Azure AI Foundry.

Integrace a bezpečnost
Microsoft plánuje brzy integrovat MAI-Image-1 do svých produktů, jako je Copilot (asistent pro generativní AI) a Bing Image Creator (nástroj pro tvorbu obrázků v prohlížeči Bing). Prozatím je model dostupný k testování na platformě LMArena, kde mohou uživatelé poskytovat zpětnou vazbu. Společnost zdůrazňuje závazek k bezpečným a zodpovědným výsledkům, což zahrnuje testování na této platformě. Model se připojuje k dalším interním produktům jako MAI-Voice-1 pro syntézu hlasu a MAI-1-preview pro složité textové úlohy. Mustafa Suleyman, šéf Microsoft AI, zmínil v rozhovorech dlouhodobý pětiletý plán s významnými čtvrtletními investicemi do vlastních modelů.

Důležitý posun pro Microsoft
Tento model je součástí většího posunu Microsoftu směrem k vlastním AI technologiím, přestože společnost dříve spolupracovala s OpenAI. MAI-Image-1 pomáhá Microsoftu získat větší kontrolu nad aktualizacemi a inovacemi, což je vidět v integraci do platforem jako Azure AI Foundry nebo Microsoft Designer. V porovnání s jinými modely se zaměřuje na praktické použití, kde rychlost a kvalita hrají klíčovou roli, a to bez zbytečných stylových omezení.
