Představte si robota, který se pohybuje v zřícené budově nebo v temné jeskyni, kde každá sekunda rozhoduje o úspěchu záchranné operace. Výzkumníci z MIT vyvinuli nový systém založený na umělé inteligenci (AI), který umožňuje robotům vytvářet detailní trojrozměrné (3D) mapy složitých prostředí během několika sekund. Tento systém kombinuje moderní strojové učení s klasickými principy počítačového vidění a mohl by změnit způsob, jak fungují záchranní roboti v nebezpečných místech, jako jsou zřícené doly nebo katastrofické oblasti.
Systém zpracovává neomezený počet snímků z kamer na robotovi, vytváří přesné 3D rekonstrukce a současně odhaduje polohu robota v reálném čase. Na rozdíl od starších metod, které selhávají v přeplněných nebo vizuálně složitých prostředích a vyžadují předem kalibrované kamery, tento nový přístup funguje bez speciální kalibrace a zvládá tisíce snímků rychle.
Stará vs. nová řešení
Roboti tradičně používají techniku nazvanou SLAM (simultánní lokalizace a mapování), aby vytvořili mapu okolí a zjistili svou pozici. Tyto metody však často nefungují dobře v chaotických prostředích. Modely strojového učení zjednodušily proces, ale dokázaly zpracovat jen asi 60 snímků najednou, což je pro skutečné mise nedostatečné, protože robot musí analyzovat tisíce snímků rychle.
Výzkumníci z MIT, včetně absolventa Dominica Maggio, postdoktoranda Hyungtae Lim a profesora letecké a kosmické techniky Luca Carlone, se rozhodli tento problém vyřešit. Jejich přístup rozděluje scénu na menší "submapy", které se vytvářejí a zarovnávají postupně. Systém pak tyto submapy spojuje do jednoho koherentního 3D modelu, což umožňuje robotovi pohybovat se rychle a přitom udržet přesnost.
Dominic Maggio řekl, že když poprvé zkusil tento jednoduchý přístup, byl překvapen, že nefungoval tak dobře, jak očekával. Po prozkoumání starších výzkumů v počítačovém vidění objevil důvod: modely strojového učení často zavádějí jemné deformace do submap, což ztěžuje jejich správné zarovnání pouze pomocí rotace a posunu.
Spojení geometrie a umělé inteligence
Aby problém vyřešili, tým Luca Carlone převzal techniky z tradiční geometrie. Vyvinuli matematický rámec, který zachycuje a opravuje deformace v každé submapě, takže systém je dokáže zarovnat konzistentně. Luca Carlone vysvětlil, že je nutné zajistit, aby všechny submapy byly deformovány konzistentním způsobem, což umožní jejich dobré zarovnání.
Jakmile Dominic Maggio spojil síly strojového učení s klasickými optimalizačními metodami, výsledky byly okamžité. Luca Carlone poznamenal, že jakmile Dominic Maggio přišel s intuicí spojit tyto dva světy – přístupy založené na učení a tradiční optimalizační metody – implementace byla poměrně přímočará. Tento efektivní a jednoduchý přístup má potenciál pro mnoho aplikací.
Systém je založen na VGGT-SLAM, který využívá feed-forward rekonstrukční model VGGT k postupnému budování husté mapy z nekalibrovaných monokulárních kamer. Zarovnává submapy lokálně i globálně prostřednictvím uzavírání smyček a optimalizuje na manifoldě SL(4), což je nový přístup pro problém SLAM.
Testy v laboratoři a reálné použití
Systém MIT se ukázal rychlejší a přesnější než existující mapovací techniky. Nepotřebuje speciální kalibraci kamer ani další nástroje pro zpracování. V jedné demonstraci výzkumníci natočili krátké video interiéru MIT Chapel pomocí mobilního telefonu a rekonstruovali přesný 3D model během sekund. Rekonstruované scény měly průměrnou chybu menší než pět centimetrů.
Tým věří, že tato jednoduchost pomůže nasadit metodu ve skutečných robotech, nositelných systémech rozšířené reality (AR) nebo virtuální reality (VR) a dokonce v automatizaci skladů. Luca Carlone zdůraznil, že znalost tradiční geometrie se vyplatí. Pokud hluboce pochopíte, co se děje v modelu, můžete dosáhnout mnohem lepších výsledků a udělat věci mnohem škálovatelnějšími.
Výzkum bude prezentován na konferenci Conference on Neural Information Processing Systems (NeurIPS) a je dostupný na arXiv pod identifikátorem 2505.12549v2.

Výhody pro záchranné operace
Tento systém by mohl změnit, jak záchranní roboti navigují v zřícených dolech nebo katastrofických místech, kde rychlost a přesnost rozhodují o životě a smrti. Například v testech na datech jako 7-Scenes a TUM RGB-D dosáhl VGGT-SLAM průměrné chyby trajektorie 0,067 metru na 7-Scenes a 0,053 metru na TUM RGB-D, což je srovnatelné nebo lepší než u jiných metod jako DROID-SLAM nebo MASt3R-SLAM.
V jednom příkladu systém zpracoval 55 metrů dlouhou trať v kancelářském koridoru s 22 submapami a vytvořil globálně konzistentní mapu s uzavíráním smyček. Další testy ukázaly, že optimalizace na SL(4) řeší projektivní ambiguu, kde Sim(3) selhává, což zlepšuje kvalitu mapy v obecných případech.
Tým uznal omezení, jako degenerace v plochých scénách, kde odhad homografie vede k nestabilním řešením, jak se stalo v podlahové scéně z TUM datasetu. Přesto systém představuje první faktorové grafové SLAM optimalizované na manifoldě SL(4), což otevírá nové možnosti pro husté, přesné mapování v reálném čase.
Zdroje: news.mit.edu a interestingengineering.com
