Co je to Runway Gen-4.5?
Runway, startup založený v roce 2018, právě představil svůj nový model Gen-4.5. Tento nástroj umožňuje uživatelům vytvářet videa ve vysokém rozlišení jen na základě psaných popisů. Například když zadáte prompt jako "Kamera se pohybuje po kuchyňském stole s různými předměty, světlo je slabé a přichází z okna, vrhá stíny a skvrny světla", model vytvoří video, kde se objekty pohybují přirozeně, s realistickými stíny a detaily. Gen-4.5 se zaměřuje na porozumění fyzice, pohybu lidí, pohybům kamery a vztahu příčiny a následku. Podle hodnocení na žebříčku Video Arena, který spravuje společnost Artificial Analysis, dosáhl model 1 247 bodů Elo a obsadil první místo. Lidé v tomto hodnocení porovnávají výstupy modelů anonymně a hlasují pro ty lepší.
Firma Runway má tým jen 100 lidí, ale přesto překonala obří společnosti. Generální ředitel Cristóbal Valenzuela řekl, že jim to umožnila soustředěnost a pečlivost. Model je kódově nazvaný "David" podle biblického příběhu o Davidovi a Goliášovi, což naznačuje, jak malá firma bojuje s velikány. Runway se specializuje na AI výzkum a modely světa, které se učí z videí a dat o reálném světě, aby lépe napodobovaly fyziku. Mezi zákazníky patří mediální organizace, studia, značky, designéři, kreativci a studenti. Hodnota firmy dosáhla 3,55 miliardy dolarů, což je při aktuálním kurzu asi 81,65 miliardy Kč.
Vylepšení v Gen-4.5
Gen-4.5 přináší velké zlepšení oproti předchozím modelům, jako byl Gen-1 před dvěma lety, který jako první umožnil veřejnosti generovat videa z textu. Teď model zvládá složité scény s mnoha prvky, kde se všechno pohybuje přirozeně. Například v promptu "Voda teče ze zahradního kohoutku a plní rezavý kovový kbelík, pod ním je perfektně složená bílá papírová loďka s malou žlutou květinou, loďka pluje po proudu vody do domu a končí před rozbitou televizí" vytvoří video bez střihů, kde voda teče realisticky a loďka se pohybuje plynule.
Model exceluje v detailech: objekty mají správnou váhu a hybnost, kapaliny tečou přirozeně, povrchy mají jemné detaily jako prameny vlasů nebo struktura materiálů, které zůstávají konzistentní během pohybu. Zvládá i složité kompozice, jako "Polární medvěd sedí schoulený v průhledném bloku ledu, připevněném na malém stříbrném přívěsu, kamera sleduje přívěs tažený lanem na úrovni očí, pak se otočí doprava a odhalí kozu, která táhne přívěs". Videjko ukáže medvěda v ledu, taženého kozou, s přirozeným pohybem.
V oblasti fyziky model napodobuje skutečné kolize a pohyby. Například v promptu "Antropomorfní kaktusová postava obejme červenou balonovou postavu a balonová postava praskne", kde se balon realisticky roztrhne při objetí. Další příklad: "Potápěč na dně oceánu střílí z kulometu, kamera je ruční a nedokonalá, občas mimo střed" – zde se pohyby pod vodou chovají přirozeně, s bublinami a hybností.
Pro postavy model zachycuje nuance emocí, přirozená gesta a detaily tváře. Například "Mladá žena s rovnými blond vlasy a pihovatou pletí sedí tiše, dívá se nahoru přes řasy se zranitelným výrazem" vytvoří video s jemnými výrazy. Model zvládá i dramatické scény, jako "Brunetka s intenzivním a vážným výrazem se přibližuje ke kamerě, pak zvedne ruku a odhalí pistoli a vystřelí několikrát směrem ke kamerě".
Různé styly a limity modelu
Gen-4.5 zpracovává širokou škálu stylů. Ve fotorealistickém režimu vytváří videa, která vypadají jako skutečné záběry, například "Nepřerušený podvodní záběr bez střihů, kamera se pohybuje vpřed pod vodou s různými plovoucími objekty, světlo je slabé a prochází povrchem vody". Nefotorealistické styly zahrnují animace, jako "Elegantní venkovská liška v slaměném klobouku a obleku jede na motorce po prašné cestě skrz venkov, hyperdetailní styl inspirovaný stop-motion kinem".
Model zvládá i běžné scény ze života, jako "Scéna ukazuje televizi s kresleným psem z 90. let, ruka ji vypne, kamera se posune dolů a odhalí 'Runway' napsané cereáliemi v misce s mlékem, pak zpět nahoru k lednici s 'Whisper Thunder' napsaným magnety". Nebo cinematické scény: "Dítě na zádech mandrila vedle skupiny mandrilů běžících po pláni, cinematický styl s rychlým rozmazáním pohybu, ruční dokumentární styl, nízký úhel".
Přesto má model limity: někdy se efekty objeví před příčinou, například dveře se otevřou dřív než se stiskne klika; objekty můžou zmizet nebo se objevit nečekaně, například šálek zmizí po zakrytí; a akce často uspějí i při špatném provedení, jako špatně mířený kop, který dá gól. Runway na těchto problémech pracuje, zvláště pro modely světa, které mají přesně napodobovat důsledky akcí.
Srovnání s konkurencí a dostupnost
Gen-4.5 překonává modely od Google (Veo 3 na druhém místě) a OpenAI (Sora 2 Pro na sedmém). Cristóbal Valenzuela zdůraznil, že je to úspěch po sedmi letech práce a že AI nemá být monopolizováno několika firmami. Model byl vyvinutý na GPU od Nvidie, včetně Hopper a Blackwell série. Spolupráce s Nvidií pomohla optimalizovat trénink i rychlost. Jensen Huang, prezident a CEO Nvidie, řekl, že je to vzrušující doba pro videové a světové modely, a že Nvidia pomáhá Runway revolučně měnit průmysl.
Gen-4.5 se postupně zavádí pro všechny zákazníky Runway s podobnou cenou jako předchozí modely. Bude dostupný přes platformu Runway, jejich API a partnery. Firma plánuje přidat režimy jako obraz na video, klíčové snímky nebo video na video. Runway spolupracuje s partnery v obchodu, marketingu, vysílání a hraní.
Model udržuje rychlost a efektivitu Gen-4, bez ztráty kvality. Je to první z několika velkých vydání, které Runway chystá.
