Google DeepMind uvedl nový model s názvem Gemini Omni, který umožňuje vytvářet videa z prakticky libovolného vstupního materiálu. Text, fotka, zvuk nebo existující video záběr. Cokoliv z toho může být výchozím bodem. Výsledkem je vždy video. Model zatím vychází v podobě Gemini Omni Flash a je dostupný v aplikaci Gemini, v nástroji Google Flow a na YouTube Shorts. Google ho nasazuje jako přímého nástupce modelu Veo, který v aplikaci Gemini dosud obstarával generování videí.
Editeca pohodlně přes chat z různých vstupů
Co Gemini Omni odlišuje od předchozích nástrojů? Způsob úprav. Nepracujete jako v klasickém editoru se stopou a vrstvami. Prostě stačí napsat, co chcete změnit. Chcete přenést houslistu do jiného prostředí? Napíšete to. Pak chcete schovat housle? Napíšete to. A pak změníte úhel kamery na záběr přes rameno. Každá úprava navazuje na tu předchozí, scéna zůstává konzistentní, postavy si udržují svůj vzhled. Systém si pamatuje kontext celé sekvence.
Gemini Omni zvládá úpravy ve více krocích, přičemž zachovává fyzikální logiku obrazu. Tekutiny se chovají jako tekutiny. Mramor se kutálí tak, jak by se kutálel. Google tyto schopnosti popisuje jako intuitivní porozumění silám jako gravitace, kinetická energie nebo dynamika tekutin.
Jeden z nejzajímavějších momentů, které Google při uvedení modelu předvedl je kombinace různých typů vstupů v jediném výstupu. Uživatel může přiložit video zachycující pohyb, fotografii postavy a hudební stopu. Gemini Omni z toho složí jedno video, kde postava z fotky pohybem odpovídá rytmu hudby a stylem odkazuje na referenční záběr. Vstupy se nekombinují mechanicky, model hledá příběhovou logiku.
Zatím funguje přímý odkaz na zvuk pouze přes hlasové nahrávky. Ostatní typy zvukových vstupů Google plánuje postupně zpřístupnit.
Další zajímavou funkcí je náčrtek. Načrtněte rybu, ptáka nebo pampelišku na papír, vyfoťte to, a Gemini Omni z toho udělá realistické video. Pohyb v kresbě slouží jako vodítko pro pohyb ve výsledném záběru. Samotná kresba se ve videu neobjeví. Podobně funguje výměna postav nebo objektů. Přiložíte fotografii postavy a řeknete modelu "přeměň mě v tuto postavu". Výsledná postava převezme pohyb, výraz i dialog z původního záběru.
Google zdůrazňuje, že model čerpá ze znalostní Gemini, což zahrnuje historii, vědu, matematiku i kulturní kontext. V ukázkách to znamená například video vysvětlující skládání bílkovin, nebo abecední sériál s neobvyklými předměty na každé písmeno, vše automaticky synchronizované s hudbou a titulky. Takže model nejen generuje obraz, ale rozumí tomu, co zobrazuje.
Gemini Omni Flash je dostupný uživatelům starším 18 let s předplatným Google AI Plus, Pro nebo Ultra. Služba funguje ve všech jazycích a trzích, kde je aplikace Gemini k dispozici. Některé funkce, například úpravy videí nebo avatarů, mohou být v určitých zemích omezeny.
Videa vytvořená přes Gemini jsou označena neviditelným vodoznakem SynthID a obsahují metadata podle standardu C2PA, který umožňuje ověřit původ obsahu. Ověření bude brzy dostupné přímo v prohlížeči Chrome a ve vyhledávání Google.
