Vrátit se na blog

Blog /

Robotika /

Nová technologie Cosmos Policy od Nvidie učí roboty předvídat budoucnost a plánovat pohyby

Ondřej Barták

podnikatel a programátor

3. 2. 2026

4 minut čtení

Poslechněte si článek

Audio verze článku

NVIDIA představila Cosmos Policy, nový přístup k robotickému řízení, který staví na platformě světových základních modelů pro fyzickou umělou inteligenci. Cosmos Policy představuje zjednodušený způsob, jak roboti rozhodují o svých akcích tím, že adaptují velké předtrénované video modely pro úlohy řízení a plánování.

Klíčovou inovací je, že Cosmos Policy nevyžaduje žádné architektonické úpravy původního video modelu. Místo toho využívá jediné stadium dodatečného trénování na demonstračních datech robotů, což výrazně zjednodušuje celý proces ve srovnání s předchozími metodami, které vyžadovaly více fází trénování a nové architektonické komponenty.

Jak Cosmos Policy funguje

Tradiční robotické systémy obvykle potřebují samostatné moduly pro vnímání, plánování a řízení. Každý z těchto modulů vyžaduje velké množství označených dat a specifické ladění pro každého robota nebo prostředí. Cosmos Policy volí odlišnou cestu – místo vytváření nového řídicího modelu od nuly provádí dodatečný trénink předtrénovaného video modelu známého jako Cosmos Predict na demonstračních datech robotů.

Model již rozumí tomu, jak se fyzický svět vyvíjí v čase, protože se učil z rozsáhlých video dat. Během dodatečného trénování jsou robotické akce, fyzické stavy a výsledky úloh zpracovány jako součást vnitřní časové reprezentace modelu. To umožňuje modelu předpovídat nejen to, co by robot měl dělat dále, ale také co se stane v důsledku této akce.

Cosmos Policy využívá techniku nazvanou "latent frame injection" (injekce latentních snímků). Nové modality jako robotická propriocepce, akční sekvence a hodnoty stavů jsou zakódovány jako nové latentní snímky, které jsou přímo vloženy do latentní difuzní sekvence video modelu. To znamená, že model může společně předpovídat akce, budoucí stavy a očekávanou hodnotu úspěchu v rámci jediné architektury.

Rekordní výsledky v benchmarcích

Cosmos Policy dosáhla impozantních výsledků ve standardních robotických benchmarcích. V LIBERO benchmarku dosáhla průměrné úspěšnosti 98,5 % napříč čtyřmi sadami úloh, což je nový rekord. Konkrétně v kategorii Object dosáhla dokonce 100% úspěšnosti.

V RoboCasa benchmarku, který zahrnuje 24 kuchyňských manipulačních úloh, dosáhla Cosmos Policy průměrné úspěšnosti 67,1 %, přičemž k trénování potřebovala výrazně méně demonstrací než konkurenční metody – pouze 50 demonstrací oproti 300 a více u ostatních přístupů.

V reálných experimentech s bimanipulačním robotem ALOHA Cosmos Policy překonala všechny srovnávané metody včetně pokročilých vision-language-action modelů jako π₀.₅ a OpenVLA-OFT+. Dosáhla nejvyššího průměrného skóre 93,6 % v náročných úlohách vyžadujících dlouhodobou manipulaci s vysokou přesností.

Plánování s využitím světového modelu

Jednou z klíčových vlastností Cosmos Policy je schopnost provádět plánování v době inference. Místo produkce pouze bezprostřední následující akce může model generovat a vyhodnocovat více kandidátních akčních sekvencí. Předpovídáním budoucích výsledků a očekávaných odměn těchto sekvencí může robot vybrat akce, které mají větší pravděpodobnost úspěchu v delším časovém horizontu.

Cosmos Policy využívá best-of-N sampling – vzorkuje více návrhů akcí z modelu, použije plánovací model k předpovědi budoucího stavu a hodnoty pro každý návrh a vybere a provede akci, která vede k předpovězenému stavu s nejvyšší hodnotou. Pro větší přesnost model používá ensemble predikce – dotazuje světový model třikrát na akci a hodnotovou funkci pětkrát na budoucí stav, což vede k celkem patnácti hodnotovým predikcím pro každý návrh akce.

V náročných reálných manipulačních úlohách vedlo plánování založené na modelu k průměrnému zvýšení skóre o 12,5 procentních bodů ve dvou nejnáročnějších úlohách. Kvalitativně výzkumníci zjistili, že vyladěný plánovací model přesněji předpovídá budoucí stavy a může efektivněji plánovat, čímž se vyhne chybám, které základní Cosmos Policy dělá.

Součást ekosystému NVIDIA Cosmos

Cosmos Policy je součástí širší platformy NVIDIA Cosmos, která se zaměřuje na budování univerzálních světových modelů pro roboty a autonomní systémy. Platforma zahrnuje několik klíčových komponent:

Cosmos Predict generuje až 30 sekund vysoce kvalitního videa z multimodálních podnětů a předpovídá budoucí stavy dynamických prostředí pro plánování robotů a AI agentů.

Cosmos Transfer urychluje generování syntetických dat napříč různými prostředími a světelnými podmínkami, transformuje 3D nebo prostorové vstupy ze simulačních frameworků jako CARLA nebo NVIDIA Isaac Sim do plně kontrolovaného vysoce kvalitního videa.

Cosmos Reason je multimodální vision language model, který umožňuje robotům a vision AI agentům uvažovat jako lidé, využívá předchozí znalosti, porozumění fyzice a zdravý rozum k pochopení reálného světa.

Technické detaily a dostupnost

Cosmos Policy byla vyvinuta týmem výzkumníků z NVIDIA a Stanford University, včetně Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, Yen-Chen Lin a dalších. Model je založen na Cosmos-Predict2-2B, latentním video difuzním modelu s 2 miliardami parametrů.

Všechny modely Cosmos, včetně Cosmos Policy, jsou dostupné pod NVIDIA Open Model License a jsou k dispozici na platformách GitHub a Hugging Face. NVIDIA také poskytuje Cosmos Cookbook – praktického průvodce s postupy krok za krokem, technickými recepty a konkrétními příklady pro budování, přizpůsobení a nasazení světových základních modelů.

Pro vývojáře, kteří chtějí začít s Cosmos Policy, NVIDIA nabízí několik možností: přímý přístup k modelům a kódu na GitHubu, vyzkoušení modelů v hostovaném katalogu nebo využití praktických receptů v Cosmos Cookbook.

Cosmos Policy představuje významný pokrok v oblasti robotického učení tím, že kombinuje sílu předtrénovaných video modelů s efektivním dodatečným tréninkem na robotických datech, čímž dosahuje špičkových výsledků při zachování jednoduchosti a flexibility.

Zdroj: interestingengineering.com

Kategorie: Robotika