Objevte Genie 3 od Google DeepMind - Budoucnost simulací s umělou inteligencí

Zadáte jednoduchý textový popis a najednou se ocitnete v dynamickém světě, který můžete prozkoumávat v reálném čase. To není sci-fi, ale realita, kterou přináší Genie 3, nový model od Google DeepMind. Tento článek vás provede detaily tohoto průlomového vývoje, založené na oficiálním blogu od autorů Jacka Parkera-Holdera a Shlomiho Fruchtera. Pojďme se podívat, jak Genie 3 mění pohled na simulované prostředí, a to všechno srozumitelně a s pořádnou dávkou nadšení – protože tohle je opravdu vzrušující!

Cesta k simulaci světa

Google DeepMind se už více než deset let věnuje výzkumu simulovaných prostředí. Začalo to tréninkem agentů, kteří zvládli real-time strategické hry, jako je StarCraft II, a pokračovalo vývojem otevřených prostředí pro učení a robotiku. To všechno vedlo k vytvoření světových modelů – systémů umělé inteligence, které dokážou simulovat svět na základě svého porozumění, předpovídat jeho vývoj a reagovat na akce.

Světové modely jsou klíčové pro cestu k umělé obecné inteligenci (AGI), protože umožňují trénovat agenty v nekonečném množství bohatých simulací. Loni představili Genie 1 a Genie 2, které generovaly nová prostředí pro agenty. Zároveň pokročili v generování videí s modely Veo 2 a Veo 3, které ukazují hluboké porozumění intuitivní fyzice. Genie 3 je prvním modelem, který umožňuje interakci v reálném čase, a zároveň zlepšuje konzistenci a realismus oproti Genie 2.

Genie 3 dokáže na základě textového popisu vytvořit dynamický svět, který můžete navigovat v reálném čase při 24 snímcích za sekundu, a to s konzistencí trvající několik minut v rozlišení 720p. To je obrovský skok – představte si, jak se pohybujete vulkanickou krajinou nebo podmořským světem, a všechno reaguje přirozeně. Podívejte se na ilustrační video.

Schopnosti Genie 3

Genie 3 exceluje v modelování fyzikálních vlastností světa. Například dokáže simulovat přírodní jevy jako vodu, osvětlení nebo složité interakce v prostředí. V jednom příkladu se ocitnete v perspektivě kolového robota, který se pohybuje obtížným terénem v sopečné oblasti. Vozidlo má robustní off-road pneumatiky, které drtí černou skálu, a kamera je egocentrická, takže vidíte přední kola na spodku obrazu. V dálce se tyčí kouř a tekoucí láva z vulkánu, bez známek života, s lávovými jezírky, které se agent snaží vyhnout, a náhodnými skalními formacemi pod živě modrou oblohou.

Další ukázka: jízda na vodním skútru během festivalu světel. Nebo procházka po chodníku na Floridě vedle dvouproudé silnice a moře během blížícího se hurikánu – s silným větrem, vlnami přelévajícími přes zábradlí, ohýbajícími se palmami a těžkým deštěm, kde agent nosí pláštěnku.

Genie 3 také simuluje přírodní svět s bohatými ekosystémy. Běh podél břehů ledovcového jezera, prozkoumávání rozvětvených cest lesem, překračování horských potoků v okolí zasněžených hor a borovicových lesů, kde je spousta divoké zvěře. Nebo plavání skrz temný oceán mezi kaňony s hejny medúz a bioluminiscenčním osvětlením.

Prozkoumávání míst a historických prostředí? Genie 3 vás vezme do Alp s strmými skalami a úžinami plnými sutě, do kanálů Benátek s realistickými odrazy vody a starými budovami, nebo do paláce Knossos na Krétě v jeho slavné éře. Dokonce i procházka po slunečném dni v Hinsdale v Illinois s parkujícími auty a hejny ptáků nad hlavou.

Technický průlom

Aby Genie 3 dosáhl vysoké míry ovladatelnosti a interakce v reálném čase, byly potřeba významné technické inovace. Při generování každého snímku musí model zohlednit předchozí trajektorii, která se prodlužuje časem. Například pokud se vrátíte na místo po minutě, model musí odkazovat na informace z minuty zpět. To všechno musí probíhat několikrát za sekundu v reakci na nové vstupy uživatele.

Pro immersivní zážitek musí být prostředí konzistentní dlouhodobě. Generování autoregresivně je složitější než celé video, protože nepřesnosti se hromadí. Přesto Genie 3 udržuje konzistenci několik minut, s vizuální pamětí sahající až minutu zpět. Například v ukázce malování domu válečkem z perspektivy první osoby, nebo procházka viktoriánskou ulicí s portálem do pouště, kde se agent může teleportovat.

Další novinkou jsou promptovatelné světové události – textové interakce, které mění svět, jako změna počasí nebo přidání objektů a postav. To rozšiřuje možnosti pro "co kdyby" scénáře, užitečné pro trénink agentů.

Srovnání modelů

Pro lepší přehled, zde je přeložená tabulka srovnávající Genie 3 s předchozími modely. Tato tabulka je založena na poskytnutém obrázku a ukazuje klíčové rozdíly.

Tabulka

Podpora výzkumu a omezení

Genie 3 testovali s agentem SIMA, který plní cíle v generovaných světech, jako přiblížení se k mixéru v pekárně nebo procházka k chladicím regálům. To ukazuje potenciál pro trénink robotů a autonomních systémů.

Přesto má omezení: omezený akční prostor, složité interakce mezi agenty, nepřesné simulace reálných míst, problémy s textem a omezená délka interakce na několik minut.

Google DeepMind klade důraz na zodpovědnost – spolupracují s týmem pro zodpovědný vývoj a Genie 3 je dostupný jen v omezeném výzkumném náhledu pro akademiky a tvůrce, aby sbírali zpětnou vazbu.

Kategorie: AI