Startup Physical Intelligence zveřejnil výzkum, který vzbudil vlnu zájmu napříč světem robotiky. Jejich nový model π0.7 dokáže řídit roboty při plnění úkolů, na které nebyl výslovně natrénován. A výsledky zaskočily i samotné výzkumníky, kteří model postavili. Nestalo se to poprvé, ale tentokrát jde o něco jiného. Nestačí to odbýt slůvkem "pokrok."
Physical Intelligence a model π0.7
Physical Intelligence je dvouletý startup, který se stal jednou z nejvíce sledovaných firem v oblasti umělé inteligence v San Francisku. Jejich nový model nese označení π0.7 (pí-nula-sedm) a představuje první seriózní krok k tomu, co se v oboru označuje jako "obecný robotický mozek" - tedy systém, který zvládne širokou škálu úkolů, aniž by ho na každý z nich musel někdo zvlášť učit.
Dosavadní přístup k trénování robotů byl v podstatě memorování nazpaměť. Inženýři nasbírali data pro konkrétní úkol, natrénovali na nich specializovaný model a celý postup zopakovali pro každý nový úkol. π0.7 tento vzorec boří. Model dokáže kombinovat dovednosti naučené v různých kontextech a řešit problémy, které v trénovacích datech nikdy neviděl.
Tomuto jevu se říká kompoziční zobecnění. Funguje podobně jako velké jazykové modely: pokud model ví, jak přeložit text z angličtiny do francouzštiny, a ví, jak formátovat výstup jako JSON, zvládne bez dalšího učení obojí najednou. Physical Intelligence teď ukazuje, že něco podobného začíná fungovat i ve fyzickém světě.
Fritéza, o které robot skoro nic nevěděl
Nejpůsobivější ukázka výzkumu zahrnuje obyčejnou vzduchovou fritézu. Výzkumný tým prošel celou trénovací sadu dat a našel pouze dvě relevantní epizody: jednu, kde jiný robot fritézu zavřel, a druhou z volně dostupné sady DROID, kde robot vložil do fritézy plastovou láhev. To je vše.
Přesto model z těchto zlomků (spolu s obecnými daty z webu) sestavil funkční pochopení toho, jak spotřebič pracuje. Bez jakéhokoli vedení se pokusil vložit sladkou bramboru do fritézy a uvařit ji. Pokus nebyl dokonalý, ale byl rozumný. Co se stalo, když ho výzkumníci provedli úkolem krok za krokem? Úspěšnost vyskočila. A tady přichází detail, který celý obor trochu zaskočil.
Výzkumnice Lucy Shi, doktorandka na Stanfordu a zároveň pracovnice Physical Intelligence, popsala jeden z prvních pokusů s fritézou: úspěšnost byla pouhých 5 %. Po přibližně půl hodině ladění toho, jak byl úkol modelu vysvětlen, skočila na 95 %. "Někdy problém není v robotovi ani v modelu," říká Shi. "Jsme to my. Nejsme dobří v zadávání instrukcí."
Způsob zadávání instrukcí
Právě tato schopnost přijímat slovní vedení je jednou z nejdůležitějších vlastností π0.7. Roboty by šlo nasadit do nových prostředí a zlepšovat je v reálném čase, bez sběru dalších dat, bez přetrénování modelu.
Funguje to ale jinak, než si možná představujete. Model zatím nezvládne příkaz "Udělej mi snídani". "Nemůžeš mu říct: 'Hej, udělej mi toast'," vysvětluje Sergej Levine, spoluzakladatel Physical Intelligence a profesor na UC Berkeley. "Ale když ho provedeš krok za krokem - 'otevři tuhle část, zmáčkni tohle tlačítko, udělej tohle' - pak to funguje celkem dobře."
Trénovací sada π0.7 je záměrně rozmanitá. Zahrnuje data z různých robotů, záznamy pohybů lidí i autonomní epizody, kde různé verze modelu samy prováděly úkoly. Klíčem k tomu, aby tato směsice skutečně fungovala, je tzv. různorodé podmínkování při trénování. Model dostává nejen popis toho, co má dělat, ale také jak to má dělat: jakou rychlostí, v jaké kvalitě, s jakými dílčími vizuálními cíli.
Robot přeložil oblečení na stroji, na který ho nikdo neučil
Jedním z nejpřesvědčivějších experimentů byl test přenosu dovedností na jiného robota. Physical Intelligence nasbíralo data o skládání prádla na jednom konkrétním robotickém systému. Pak posadili π0.7 k průmyslovému rameni UR5e s paralelními čelistmi, těžkému, tuhému, zásadně odlišnému od původního robota.
Žádná data o skládání prádla pro UR5e neexistovala. Přesto model úkol zvládl. A co víc: jeho úspěšnost při prvním pokusu odpovídala úspěšnosti zkušených teleoperátorů s průměrně 375 hodinami praxe, kteří také poprvé zkoušeli skládat prádlo právě s tímto ramenem.
Překvapivý vývoj a růst firmy
Ashwin Balakrishna, výzkumník Physical Intelligence, přiznal, že ho výsledky skutečně zaskočily. "Moje zkušenost vždy byla taková, že když dobře znám data, dokážu odhadnout, co model zvládne," říká. "Málokdy mě něco překvapí. Ale posledních pár měsíců je poprvé, kdy mě věci opravdu překvapují. Koupil jsem náhodně sadu ozubených kol, dal ji robotovi a zeptal se ho, jestli ji dokáže otočit. A fungovalo to."
Levine ten pocit porovnal se vzpomínkou na první setkání s GPT-2, když model začal sám od sebe psát příběh o jednorožcích v Andách. "Kde se sakra naučil o jednorožcích v Peru? Je to tak zvláštní kombinace," říká. "A vidět něco takového v robotice je opravdu výjimečné."
Physical Intelligence do data publikace výzkumu získalo přes miliardu dolarů a bylo naposledy ohodnoceno na 5,6 miliardy dolarů. Velkou roli v přitahování investorů sehrál spoluzakladatel Lachy Groom, dříve jeden z nejvýznamnějších andělských investorů v Silicon Valley, který stojí za Figmou, Notionem nebo Rampem. Jeho zapojení pomohlo startupu získat vážný institucionální kapitál, přestože firma odmítá investorům sdělovat jakýkoli časový plán komerčního nasazení.
Teď se prý vedou rozhovory o novém kole financování, které by ocenění firmy téměř zdvojnásobilo na 11 miliard dolarů. Firma to odmítla komentovat. Levine zůstává opatrný, když ho novináři tlačí na konkrétnější odpovědi o nasazení v praxi. "Myslím, že existuje dobrý důvod k optimismu a vývoj jde rychleji, než jsem před pár lety čekal," říká. "Ale nedokážu na tu otázku odpovědět."
Kritika v robotice
Kritici robotických ukázek mají svůj oblíbený argument: roboti dělají nezáživné věci. Žádné přemety, žádné akrobatické výkony. Levine tuto námitku dobře zná a rovnou ji obrací naruby.
"Kritika, která se dá vznést vůči jakékoli ukázce robotického zobecnění, je ta, že úkoly jsou trochu nudné," říká. "Robot neprovádí salto." Ale právě to je podstata věci. Rozdíl mezi ohromujícím robotickým vystoupením a systémem, který skutečně zobecňuje, spočívá přesně v té "nudnosti". Zobecnění vždy vypadá méně dramaticky než nacvičený trik - ale je podstatně užitečnější.
Výzkumný tým sám v odborném článku záměrně volí opatrný jazyk. Popisují π0.7 jako model vykazující "první náznaky" zobecnění a "počáteční demonstrace" nových schopností. Jsou to výzkumné výsledky, ne hotový produkt. A právě ta upřímnost o limitech celý výzkum paradoxně posiluje.
