Bylo by snadné přehlédnout startup, který se jmenuje Odyssey a sídlí v Palo Altu. Jenže za ním stojí dva lidé s velmi konkrétními životopisy. Oliver Cameron, výkonný ředitel a spoluzakladatel, dříve vedl produktový vývoj v Cruise, jedné z největších firem na autonomní vozidla. Jeho partner Jeff Hawke, technický ředitel, strávil 15 let budováním AI pro autonomní řízení ve společnosti Wayve a obhájil doktorát na Oxfordu.
V roce 2023 oba odešli z automobilového průmyslu s cílem založit společnost zaměřenou na obecné světové modely. Tedy kauzální, vícemodální systémy, které se učí předpovídat svět a interagovat s ním v reálném čase. Odyssey si dalo za cíl stavět AI, která nejen generuje video, ale přímo simuluje, jak se svět chová.
Tým přilákal odborníky z DeepMind, Tesla, Waymo, Meta i Wayve. Jen tak mimochodem, části z nich stojí za modely jako DeepMind Gemini, DeepMind Veo nebo autonomní systémy Tesla FSD. Firma od svého vzniku obsloužila přes 610 000 simulací pro uživatele ve 184 zemích světa.
Od filmového Hollywoodu k simulaci reality
Odyssey nezačínalo tam, kde stojí dnes. Původní vize byla jiná. Firma chtěla vytvářet nástroje pro profesionální filmaře, "Hollywood-grade" AI, která by animátorům umožnila zvládnout to, co dnes vyžaduje stovky lidí a stovky milionů dolarů, v mnohem menším týmu a za zlomek nákladů. Oliver Cameron tehdy mluvil o tom, že film jako Avatar by mohlo zvládnout pět lidí za šest měsíců.
Pak se ale vize posunula. Odyssey přestalo řešit jen filmové nástroje a začalo pracovat na obecnějším problému: naučit model skutečně simulovat svět. Ne jen generovat krátký videoklip, ale průběžně předpovídat, co se stane dál, reagovat na vstupy uživatele a udržovat konzistentní fyzikální realitu. Výsledkem jsou světové modely Odyssey-1, Odyssey-2 a nyní dva nové přírůstky: Agora-1 a Starchild-1.
Agora-1
Proč zrovna GoldenEye? Tahle střílečka z roku 1997 pro Nintendo 64 je stará klasika a mnoho lidí v Odyssey na ní vyrůstalo. Ale to není jediný důvod. Hry obecně dlouhodobě slouží jako testovací prostředí pro výzkum AI, od Atari přes Minecraft až po StarCraft. GoldenEye byl jen dalším logickým krokem.
Agora-1 je první světový model, který umožňuje až čtyřem účastníkům sdílet jednu simulovanou realitu najednou. Dosud byly světové modely omezené na jediného aktivního účastníka. Až čtyři lidé se potkají ve společné deathmatch simulaci, kde každý vidí svět generovaný AI v reálném čase. Model funguje jako naučený herní engine. Nepoužívá tradiční kód pro fyziku ani grafiku, místo toho se vše ve hře dynamiky naučil přímo z interního stavu hry GoldenEye.
Jak tohoto pokroku dosáhli? Odyssey oddělila dvě věci: simulaci a renderování. Jeden model průběžně počítá sdílený stav světa, tedy co se kde děje, jak se postavy pohybují, co se mění. Druhý model, difuzní, tento stav převádí na vizuál, a to zvlášť pro každého hráče z jeho vlastního pohledu. Díky tomu, že se stav světa spravuje explicitně, je Agora-1 schopno generovat i zcela nové levely, aniž by ztratilo mechaniky původní hry.
Dřívější pokusy o víceagentní přístupy, jako Multiverse nebo Solaris, narážely hlavně na chvíle, kdy hráči ztratili vzájemný kontakt ze zorného pole. Agora-1 si dává za cíl konzistentní zobrazení stejného světa z více nezávislých pohledů najednou. Ukázku si lze vyzkoušet přímo na webu Odyssey jako brzký výzkumný náhled. Cíl ale není stavět hry. Cameron a Hawke vidí budoucnost v jiných oblastech: trénink AI agentů v plně simulovaných prostředích a kolaborativní robotika, kde více robotů potřebuje společně uvažovat o prostoru a akcích.
Starchild-1: Světový model, který slyší i mluví
Souběžně s Agora-1 Odyssey představila i druhý model. Starchild-1 je první multimodální světový model v reálném čase a jde o jiný druh průlomu.
Tradiční světové modely se učily jen z vizuálních dat. Starchild-1 autoregressivně generuje synchronizované video i zvuk a zároveň průběžně reaguje na textové vstupy od uživatele. Jednoduše řečeno, svět nejen vidí, ale i slyší, a uživatel ho může v průběhu simulace měnit psaným textem nebo hlasem.
Tradiční audio-video modely jako DeepMind Veo generují klipy předem, offline, s pevně danou délkou. Jakmile generování začne, budoucnost výstupu je zafixovaná. Starchild-1 pracuje jinak, každý snímek videa i každý zvukový úsek předpovídá na základě toho, co bylo dříve, a toho, co uživatel právě zadal. Trajektorie se průběžně mění.
Technicky vzato to vyžadovalo zcela nové přístupy k synchronizovanému audio-video výstupu a stabilitě na dlouhých časových horizontech. Starchild-1 běží na moderním hardwaru až při 24 snímcích za sekundu. Na rozdíl od Agora-1 se zaměřuje na jednoho uživatele, ale přidává vrstvu zvuku a mluveného slova, kterou dosud žádný světový model v reálném čase neměl.
Veřejná ukázka zatím není k dispozici, Odyssey zveřejnilo jen videosestřihy a technickou zprávu. Ale sám popis je dost dostatečný: systém, který svět nejen simuluje, ale zároveň ho ozvučuje a reaguje na to, co mu říkáte.
