ChatGPT nyní umí vytvářet lepší obrázky: OpenAI přináší novou generaci AI obrazů přímo do ChatGPT
OpenAI představila nové možnosti generování obrázků pomocí umělé inteligence přímo v ChatGPT a Sora prostřednictvím svého modelu GPT-4o. Tato inovace umožňuje uživatelům vytvářet a upravovat obrázky přímo v chatovacím rozhraní, což eliminuje potřebu externích nástrojů jako je DALL-E.
Co přináší nová funkce "Images in ChatGPT"?
Nová funkce "Images in ChatGPT" poháněná modelem GPT-4o přináší několik zásadních vylepšení:
Tvorba a úprava obrázků přímo v chatu - Uživatelé mohou generovat nové obrázky nebo upravovat existující pomocí přirozeného jazyka nebo nahraných souborů přímo v ChatGPT
Dostupnost pro všechny - Funkce je k dispozici všem uživatelům (Free, Plus, Team i Pro) bez striktních limitů pro uživatele bezplatné verze (omezení se mohou upravit podle poptávky)
Vylepšené vykreslování textu - Výrazné zlepšení v přesnosti vykreslování textu v obrázcích
Přesnější barvy a textury - Generování fotorealistických obrázků s přesnými světelnými efekty a texturami
Proč je to důležité?
V OpenAI dlouhodobě věří, že generování obrázků by mělo být primární schopností jejich jazykových modelů. Lidé odjakživa používali vizuální komunikaci - od jeskynních maleb až po moderní infografiky - k předávání informací, přesvědčování a analýze, nejen pro dekoraci.
Zatímco předchozí generativní modely dokázaly vytvářet působivé surrealistické scény, často selhávaly při tvorbě praktických obrazů, které lidé používají ke sdílení a vytváření informací. GPT-4o řeší tyto nedostatky:
Výrazně lepší konzistence - ChatGPT nyní dokáže přesně umístit 15 až 20 prvků v jednom obrázku, oproti pouhým 5 až 8 prvkům u předchozích modelů
Vynikající tvorba strukturovaných vizuálů - Model exceluje v generování jídelních lístků, diagramů a infografik s čitelným textem
Vylepšené úpravy obrázků - Umožňuje modifikace existujících obrázků (včetně těch s lidmi) se zachováním komplexních scén
Jak toho OpenAI dosáhla?
OpenAI využila skupinu lidských trenérů, kteří označovali trénovací data pro model, což umožnilo:
Generování přesněji vykreslených a užitečnějších obrázků
Lepší následování lidských pokynů
Využití rozsáhlých znalostí modelu k lepšímu pochopení kontextu
Díky multimodálním schopnostem GPT-4o lze nyní vytvářet přesně takové obrázky, jaké si představujete, a pomáhat vám efektivněji komunikovat prostřednictvím vizuálů.
Toto vylepšení nahrazuje dřívější model OpenAI DALL-E a přináší dlouho očekávaná zlepšení v oblasti vykreslování textu, designových schopností a úprav pomocí přirozeného jazyka. Představuje novou éru vizuálního obsahu vytvářeného umělou inteligencí, který je nyní dostupnější a intuitivnější pro každého.
Zde se můžete podívat na předváděcí video.
