Google představil Imagen 4 - nejpokročilejší AI model pro tvorbu obrázků z textu

Google představil svůj nejpokročilejší model pro generování obrázků z textu - Imagen 4, který je nyní dostupný v placené předverzi prostřednictvím Gemini API a pro omezené bezplatné testování v Google AI Studiu. Tento nástroj je významný pokrok v oblasti umělé inteligence zaměřené na vizuální tvorbu, přičemž nabízí dramaticky vylepšené vykreslování textu oproti předchozím modelům Google.

Rodina Imagen 4: Dva modely pro různé potřeby

Google představil dvě varianty modelu Imagen 4, z nichž každá je navržena pro specifické tvůrčí požadavky. První je základní Imagen 4, který funguje jako vlajková loď pro generování obrázků z textu a je schopný zvládnout širokou škálu úkolů generování obrázků s výraznými vylepšeními v kvalitě, zejména pro generování textu oproti modelu Imagen 3. Tento model je oceněn na 0,04 dolaru za výstupní obrázek, což z něj činí dostupnou volbu pro většinu aplikací.

Druhou variantou je Imagen 4 Ultra, který je navržen speciálně pro situace, kdy potřebujete, aby vaše obrázky přesně následovaly pokyny. Tento model je optimalizován tak, aby produkoval výstupy, které jsou více sladěny s textovými výzvami, a dosahuje silných výsledků ve srovnání s ostatními předními modely pro generování obrázků. Imagen 4 Ultra je oceněn na 0,06 dolaru za výstupní obrázek a představuje prémiovou volbu pro kreativní profesionály a případy použití vyžadující vysokou přesnost.

Imagen 4 Ultra

Technické specifikace a přístupnost

Podle oficiální dokumentace má API Imagen 4 specifické limity: maximálně 20 API požadavků za minutu na projekt a maximálně 4 obrázky na požadavek. Google plánuje v nadcházejících týdnech zavést další fakturační úrovně a v mezičase umožňuje žádosti o vyšší rychlostní limity pro Imagen 4 a 4 Ultra pro uživatele s většími potřebami.

Model je podporován na několika platformách včetně Gemini API, Google AI Studio a Vertex AI, což vývojářům poskytuje flexibilitu při výběru nejvhodnější implementace pro jejich projekty. Integraci usnadňuje podpora hlavních programovacích jazyků jako Python a JavaScript s přímočarými API metodami pro generování obrázků z výzev.

Praktické ukázky schopností modelu

Alisa Fortin, Guillaume Vernade a Seth Odoom, kteří článek na Google Developer Blog připravili, prezentovali několik působivých příkladů toho, co Imagen 4 dokáže vytvořit. Mezi ukázkami vytvořenými pomocí Imagen 4 Ultra najdeme tříkolový kosmický komiks s detailním textem na konzolích a trupech lodí, vintage cestovní pohlednici z Kjóta s ikonickou pagodou pod třešňovými květy, fotografii dobrodružného páru na vrcholu hory při východu slunce, nebo avantgardní módní editorial s modelem v objemných architektonických šatech na třpytivé mimozemské krajině.

Tyto příklady ukazují na všestrannost modelu napříč různými styly a obsahem, od vědeckofantastických komiksových panelů až po filmové módní scény. Zvláště významné je vylepšené vykreslování textu, které řeší klíčové omezení předchozích modelů a produkuje přesnější, čitelnější text v obrázcích.

Imagen 4

Důvěryhodnost a transparentnost

Pro udržení důvěry a transparentnosti budou všechny obrázky generované modely Imagen 4 nadále obsahovat neviditelný digitální vodoznak SynthID. Tato technologie od DeepMind umožňuje identifikaci AI-generovaného obsahu a přispívá k odpovědnému používání generativní umělé inteligence. Vodoznak SynthID představuje pokročilé řešení pro označování syntetického obsahu bez ovlivnění vizuální kvality výsledných obrázků.

Google také poskytuje komplexní dokumentaci a praktické návody (cookbooks) pro vývojáře, kteří chtějí začít pracovat s Imagen 4. Oficiální dokumentace je dostupná prostřednictvím Gemini API dokumentace a cookbook příklady jsou k dispozici na GitHub repozitáři google-gemini, což usnadňuje rychlé začlenění do existujících projektů.

Budoucnost a dostupnost

Google plánuje učinit tyto modely obecně dostupnými v nadcházejících týdnech, což naznačuje rychlé rozšíření z aktuální fáze placené předverze. Empresa tak pokračuje ve svém úsilí demokratizovat přístup k pokročilým AI nástrojům pro tvorbu obsahu, zatímco zachovává vysoké standardy kvality a odpovědnosti.

Imagen 4 představuje nový standard pro text-to-image schopnosti Google, nabízí vývojářům a podnikům vylepšenou kontrolu, kvalitu a spolehlivost při generování vizuálního obsahu. S kombinací dostupné ceny základního modelu a prémiových schopností Ultra varianty pokrývá široké spektrum použití od osobních projektů až po profesionální kreativní aplikace.

Kategorie: AI