Prostorová inteligence hraje klíčovou roli v tom, jak lidé vnímají a interagují se světem. Každý den ji používáme při běžných činnostech, jako je parkování auta, chytání klíčů nebo navigace v davu. Hasiči se pohybují v hořících budovách díky intuici o prostoru a stabilitě, zatímco děti se učí svět skrz hru ještě před tím, než promluví. Tato schopnost je základem naší představivosti – od stavění hradů z písku po hraní Minecraftu.
V historii lidstva vedla prostorová inteligence k velkým objevům. Eratosthenés v antickém Řecku změřil obvod Země pomocí stínů a úhlu 7 stupňů mezi Alexandrií a Syene. Hargreavés vynalezl Spinning Jenny (spřádací stroj), která uspořádala více vřeten vedle sebe a zvýšila produktivitu osmkrát. Watson a Crick objevili strukturu DNA stavěním 3D modelů z kovových desek a drátů, dokud se jim neukázalo správné uspořádání bázových párů.
Prostorová inteligence je základ, na kterém stojí naše poznání. Pomáhá nám chápat složité věci skrz vizuální a fyzické interakce, což slova sama o sobě nedokážou.
Potřeba změny současných AI modelů
Dnešní velké jazykové modely (LLM) jsou skvělé v práci s textem, kódem nebo obrázky, ale chybí jim hlubší porozumění prostoru. Mohou generovat fotorealistické obrázky nebo krátká videa, ale selhávají při odhadu vzdáleností, orientace nebo otáčení objektů. Nemohou navigovat bludišti, předvídat fyziku nebo udržet konzistenci ve videích déle než pár sekund.
Fei-Fei Li, která vytvořila ImageNet – velkou databázi pro vizuální učení – v tom vidí problém. ImageNet byl jedním z tří klíčových prvků, které umožnily moderní AI, společně s neuronovými sítěmi a procesory GPU. Ve své laboratoři na Stanfordu kombinuje počítačové vidění s robotickým učením. Spolu s Justin Johnsonem, Christophem Lassnerem a Benem Mildenhallem založila World Labs, aby tyto limity překonala.
Podle Li je prostorová inteligence nutná pro pokrok v robotice, vědeckých objevech nebo kreativitě. Bez ní AI zůstává odtržená od reality.

Cesta k prostorové inteligenci
Aby AI dosáhla prostorové inteligence, potřebuje světové modely – nový typ generativních modelů, které překonají LLM. Tyto modely musí mít tři vlastnosti: být generativní, multimodální a interaktivní.
Generativní znamená, že vytvářejí konzistentní světy s geometrií, fyzikou a dynamikou, ať už reálné nebo virtuální. Multimodální umožňuje zpracovávat vstupy jako obrázky, videa, text nebo gesta a generovat úplné stavy světa. Interaktivní znamená, že na základě akcí předpovídají další stavy, případně i akce směrem k cíli.
World Labs se zaměřuje na výzkum: novou univerzální trénovací funkci podobnou předpovídání dalšího tokenu v LLM, ale složitější kvůli prostoru. Potřebují obrovská data z internetu, jako obrázky a videa, plus syntetická data s hloubkou a dotykem. Nové architektury, jako RTFM, používající prostorové snímky pro paměť a rychlou generaci.
První krok je Marble – model, který na základě multimodálních vstupů vytváří konzistentní 3D prostředí pro průzkum a tvorbu.
Aplikace v kreativitě, robotice a dalších oborech
Prostorová inteligence otevře nové možnosti v kreativitě. Filmaři a designéři her použijí Marble k tvorbě 3D světů bez drahého softwaru, což umožní interaktivní příběhy přes VR nebo XR. Architekti vizualizují budovy, průmysloví designéři o testují objekty v prostoru.
V robotice pomůže škálovat učení skrz simulace, které uzavírají mezeru mezi virtuálním a reálným světem. Roboti se stanou společníky – pomohou v laboratořích nebo doma seniorům, předpovídají akce v souladu s lidskými cíli. Podpoří různé formy, od nanobotů po stroje pro vesmír.
Dlouhodobě ovlivní vědu simulacemi experimentů, zdravotnictví modelováním molekul nebo monitorováním pacientů, a vzdělávání interaktivními lekcemi, kde studenti prozkoumávají buňky nebo historii v 3D.
Fei-Fei Li zdůrazňuje, že AI má posilovat lidi, ne je nahrazovat. Tento pokrok, inspirovaný Alanem Turingem, přinese chytřejší stroje pro lepší život.
Zdroj: drfeifei.substack.com
