Alibaba představuje Qwen-Image: AI, které maluje slovy a barvami

Qwen-Image je nejnovější model umělé inteligence od Alibaba Cloud, který se specializuje na generování a editaci obrázků. Tento model s 20 miliardami parametrů je postavený na architektuře MMDiT a přináší významné pokroky v oblasti složitého renderování textu a přesné editace obrázků. Podle oficiálního oznámení z 4. srpna 2025, které připravil Qwen Team, je model dostupný na platformách jako GitHub, Hugging Face a ModelScope. Můžete si ho vyzkoušet v demo verzi na Qwen Chat, kde stačí zvolit možnost generování obrázků. Model je open-source pod licencí Apache 2.0, což znamená, že ho kdokoli může volně používat a upravovat.

Klíčové vlastnosti zahrnují vynikající renderování textu, konzistentní editaci obrázků a silný výkon v různých benčmarcích. Například model dokáže zpracovávat složité textové prvky v obrázcích, jako jsou víceřádkové uspořádání, odstavce a jemné detaily, a to jak v abecedních jazycích, tak v logografických. To ho činí ideálním nástrojem pro tvůrce obsahu, kteří potřebují přesné a realistické výsledky.

Výkonnost a benčmarky

Qwen-Image byl testován na několika veřejných benčmarcích, kde dosáhl špičkových výsledků. V testech jako GenEval, DPG a OneIG-Bench pro generování obrázků překonal stávající modely. Pro editaci obrázků exceluje v GEdit, ImgEdit a GSO. Speciálně v renderování textu, například v LongText-Bench, ChineseWord a TextCraft, model výrazně převyšuje konkurenci, zejména při generování textu v logografických jazycích. Tyto výsledky ukazují, že Qwen-Image je silný základní model pro širokou škálu úkolů v oblasti vizuálního obsahu.

Podle hodnocení z různých zdrojů, jako je technický přehled na YouTube, model vyžaduje značné hardwarové zdroje – až 57 GB VRAM (paměť grafické karty) pro lokální spuštění velkých verzí. To znamená, že je nejvhodnější pro uživatele s výkonným hardwarem, ale díky open-source přístupu ho lze integrovat do různých aplikací. Komentáře od testerů chválí jeho schopnost zachovávat sémantický význam a vizuální realismus během editací, což ho činí vhodným pro kreativní i analytické úkoly.

Benchmarky

Příklady renderování textu

Jednou z nejsilnějších stránek Qwen-Image je jeho schopnost renderovat text v různých scénářích. Například v příkladu v anime stylu Hayao Miyazakiho model vygeneroval obrázek s nápisy na obchodech a nádobách souvisejícími s cloudovými službami, jako je cloudové úložiště, cloud computing a cloudový model. Postavy mají přesné pózy a výrazy, a hloubka pole je realistická.

Obchody

Další příklad zahrnuje tradiční dvojverší visící v čínské místnosti s modro-bílým porcelánem a obrazem slavné věže. Model přesně aplikoval kaligrafický efekt a vygeneroval detaily jako květiny a architekturu.

Místnost

V příkladech s abecedním jazykem model zvládl vitrínu knihkupectví s nápisy o novinkách tohoto týdne, bestsellerech a názvy čtyř knih. Dokonce zpracoval složitý infografický slide sE šesti sekcemi o emoční pohodě, kde každý modul měl ikonu, nadpis a popisný text, jako praxe všímavosti s větou o přítomnosti a pozorování bez soudů.

Knihkupectví

Dokonce podporuje dvojjazyčné renderování, kde se střídají jazyky, jako v příkladu s popisem modelu jako výkonného základního modelu pro složité textové renderování a přesnou editaci obrázků.

Editace obrázků a další schopnosti

Qwen-Image není jen o generování, ale i o editaci. Podporuje operace jako přenos stylu, přidávání nebo odebírání prvků, vylepšování detailů, editaci textu a úpravu póz postav. To umožňuje uživatelům dosáhnout profesionálních výsledků bez složitého softwaru. Model také zvládá širokou škálu uměleckých stylů, od fotorealistických scén po impresionistické malby nebo anime.

Editace obrázků

Příkladem je tvorba filmového plakátu s titulem o uvolněné představivosti, podtitulem o vstupu do světa za hranicemi představivosti, obsazením a režisérem spojeným s modelem. Centrální vizuál zahrnuje futuristický počítač s explodujícími barvami a tvory, v rozlišení 32K s ultra detaily.

Hodnocení a komentáře od uživatelů

Podle dostupných hodnocení a komentářů je Qwen-Image oceňován za svou open-source dostupnost a robustné zpracování složitých promptů. Testery chválí jeho fotorealistické výstupy, vysokou úroveň detailů a sémantickou konzistenci, zejména v multijazyčném textu, kde západní modely často selhávají. Například v recenzi na Cybernews se zdůrazňuje jeho převaha v benchmarkách jako GenEval a DPG, a schopnost renderovat text s vysokou věrností.

Uživatelé na platformách jako YouTube poznamenávají, že model je ideální pro kreativní profesionály a výzkumníky díky pokročilému dekodéru, který produkuje složité textury a přesné osvětlení. Nicméně některé komentáře upozorňují na limity, jako vysoké nároky na hardware – až 57 GB VRAM pro velké modely. Celkově je Qwen-Image vnímán jako všestranný nástroj, který snižuje bariéry v tvorbě vizuálního obsahu a podporuje inovace v generativní AI.

V souhrnu Qwen-Image představuje krok vpřed v oblasti umělé inteligence pro obrázky, s důrazem na přesnost a kreativitu. Qwen Team doufá, že model podpoří komunitu a přinese nové aplikace.

Kategorie: AI