Pixar a Apple specialisté vytvořili novou platformu pro generování AI videí

Dva veteráni z předních technologických společností, Charles Migos a Bharat Vasan, se spojili s dalšími bývalými zaměstnanci Pixaru, Apple, Google a Unity, aby vytvořili Intangible - webovou aplikaci, která má potenciál změnit způsob generování AI videa. Jejich platforma se snaží vyřešit jeden z nejzásadnějších problémů současných nástrojů pro generování videa umělou inteligencí - nedostatek kontroly nad finálním výstupem.

"Pro dosažení profesionálních výsledků v kreativních odvětvích jako je film, reklama, eventy a hry potřebují režiséři, producenti a všichni kreativci kontrolu nad designem scény, kompozicí záběru, uměleckým směřováním, tempem, kamerami a dalšími aspekty," vysvětluje Charles Migos, který v Intangible působí jako hlavní produktový ředitel.

Problém současných AI generátorů videa

Ačkoliv současné generativní AI nástroje pro video dosahují neuvěřitelné kvality a jsou často nerozlišitelné od reality, jejich používání je stále velmi nepředvídatelné. Vytváření videa pomocí existujících nástrojů jako je Google's Veo 3 nebo Kling je podle Migose "jako házení kostkou". Existuje propast mezi představou v hlavě tvůrce a tím, co skutečně vyprodukuje AI engine.

Hlavní problém spočívá v tom, že současné modely spoléhají na rozsáhlé textové prompty, přičemž jazyk sám o sobě není dostatečný pro přenos kreativního záměru. Každá osoba i každá umělá inteligence si jakýkoliv daný text vizualizuje odlišně. Toto může být krásné při čtení knihy, ale představuje značné omezení při vytváření konkrétní vize.

Ukázkové video zde: https://images.fastcompany.com/image/upload/q_auto,c_fit,w_1024,h_1024/wp-cms-2/2025/07/i-1-Intangible.webm

Prostorová inteligence jako klíčové řešení

Migos a CEO Bharat Vasan věří, že k skutečnému uvolnění potenciálu generativního AI pro video produkci je nutné přidat "prostorovou inteligenci" do rozhraní. Tento koncept definovala Fei-Fei Li, známá jako kmotra umělé inteligence, jako schopnost vnímat, interpretovat, uvažovat o třídimenzionálním světě a interagovat s ním.

"Začleněním interaktivního 3D od samého začátku poskytuje světový model Intangible generativním AI modelům pro generování obrázků a videa schopnost být přesnější, bez rozsáhlých promptů," říká Vasan. Tato přesnost je to, co současným nástrojům pro převod textu na video zásadně chybí.

Intangible ukotvuje generativní AI modely ve strukturovaných 3D scénách s reálnou kontrolou kamery a prostorovou logikou, což podle Vasana "poskytuje nejlepší koherenci ve výsledcích, kterou dále zlepšujeme pomocí popisů objektů, referenčních obrázků a doladění modelů (LoRA - low-rank adaptations)".

Jak Intangible funguje

Platforma umožňuje uživatelům vytvářet vlastní 3D scény pomocí drag-and-drop objektů, nastavovat kamery a ovládat je. Rozhraní je poměrně jednoduché - můžete začít z přednastavené scény nebo s prázdným světem. Hlavní viewport zobrazuje scénu se základem připraveným pro umísťování budov, postav a dalších objektů z knihovny obsahující více než 5 000 assetů.

Ve spodní části rozhraní se nachází toolbox se všemi potřebnými nástroji. Vlevo jsou ikony pro otevření panelu scény, kde můžete přidávat a přeuspořádávat všechny záběry, které budou tvořit vaše finální video. Ve středu se nachází centrální prompt pro přidávání nových objektů pomocí textu. Vlevo od něj jsou tři ikony pro přidávání objektů do scény - paleta pro výběr objektů z knihovny, primitiva (koule, krychle, pyramidy) a "interaktivní prvky" (kamery, postavy, waypoints pro pohyb kamery).

Objekty ve scéně lze přesouvat pomocí standardních 3D handlerů - šipkami pro pohyb, kostkami pro škálování a oblouky pro rotaci objektů ve všech třech osách.

Technologie a rendering

Vpravo od pole promptu se nacházejí dvě ikony pro přepínání mezi režimem editace a vizualizace. Druhý jmenovaný otevře boční panel na pravé straně obrazovky, který obsahuje vše potřebné pro sdělení generativní AI, jak má scénu renderovat - vzhled objektů, jejich vzájemné interakce, osvětlení, atmosféru a další parametry.

Platforma také nabízí možnosti nastavení denní doby nebo finálního vzhledu videa, včetně režimů jako fotorealismus, 3D kreslený film nebo film noir. Po napsání promptu stačí kliknout na tlačítko "generate" a proces se spustí.

Zajímavé je, že Intangible ve skutečnosti nevyužívá vlastní generativní AI engine pro přímou interpretaci 3D scény. Místo toho předává váš statický obrázek nejnovější verzi Klingu- populárnímu realistickému renderovacímu enginu z Číny, který dokáže proměnit jakýkoliv obrázek v živé video podle promptu.

Budoucnost platformy

Migos a Vasan jsou optimističtí ohledně budoucnosti. "V příštích třech letech očekáváme, že nástroje jako Intangible budou schopny pokrýt všechny aspekty preprodukce a digitální produkce pro stávající formy médií," říkají. Věří také, že "AI nástroje přinášejí příležitost rozšířit vizuální vyprávění jako uměleckou formu a vytvářet nové kategorie, ve kterých může lidská kreativita prosperovat."

Očekávají, že nástroje jako Intangible budou dostatečně jednoduché a zároveň výkonné, aby posílily novou generaci kreativců, nejen těch, kteří jsou technicky zdatní nebo experti na prompting.

Další příklad videa: https://images.fastcompany.com/image/upload/q_auto,c_fit,w_1024,h_1024/wp-cms-2/2025/07/i-2-Intangible.webm

Kategorie: AI