Představte si, že dostanete nového kolegu. Nemusíte mu nic vysvětlovat, protože se sám podíval na miliony hodin záznamu toho, jak lidé pracují s počítačem, a prostě to pochopil. Přesně tohle se pokusil vytvořit malý tým ze San Francisca pod hlavičkou společnosti Standard Intelligence. A výsledek? Model s názvem FDM-1, který svět počítačových agentů postavil na hlavu.
FDM-1 a proč dosavadní přístupy nestačí
Dosud fungoval vývoj počítačových AI agentů takto: vzal se jazykový model s vizuálním vnímáním, dotrénoval se na screenshotech, které ručně popsali speciálně školení lidé, a pak se model naučil konkrétní úkoly přes posilovaní učení. Zní to rozumně, ale má to jeden obrovský háček.
Největší veřejně dostupný dataset pro počítačové agenty obsahuje méně než 20 hodin záznamu. Dvacet hodin. Přitom na internetu leží desítky milionů hodin videí z editace filmů, programovacích livestreamů, herních průchodů a dalšího obsahu, kde lidé pracují s počítačem. Tohle bohatství dosavadní modely prostě nedokázaly využít. Navíc zvládaly jen pár sekund kontextu, takže složitější, dlouhodobé úkoly pro ně byly nedosažitelné.
Standard Intelligence přišlo s jiným přístupem. Trénovalo FDM-1 na 11 milionech hodin videozáznamů obrazovky. To je srovnatelné s tím, co GPT-3 udělal s textem z internetu. Jenže video je jiný oříšek než text.
Jak model pozná, co uživatel dělal, když se na to jen dívá? Tady přichází na scénu tzv. inverzní dynamický model (IDM). Funguje jednoduše: pokud se na obrazovce objeví písmeno "K", s velkou pravděpodobností někdo stiskl klávesu "K". IDM se naučil z 40 000 hodin ručně označených záznamů a pak automaticky popsal zbývající miliony hodin dat. Bez tohoto kroku by celý projekt nebyl možný.
Vlastní video enkodér
Největší technická výzva ale spočívala jinde. Běžné modely spotřebují obrovské množství tokenů na zpracování videa. Claude od Anthropicu zvládne v okně 200 000 tokenů přibližně 162 snímků. FDM-1 jich zvládne přes 48 000. To je zhruba stokrát více než OpenAI a přes stokrát více než Claude.
Jak to dokázali? Vytvořili vlastní video enkodér trénovaný na maskovaném kompresním cíli, který se naučil rozlišovat, kde je na obrazovce hodně informací a kde málo. Výsledek je impozantní: do kontextového okna 1 milionu tokenů se vejde skoro dvě hodiny videa ve 30 snímcích za sekundu. To otevírá dveře k úkolům, které trvají desítky minut, jako je 3D modelování nebo komplexní finanční analýza.
Co FDM-1 skutečně umí
Tým ukázal konkrétní ukázky schopností modelu a každá z nich stojí za pozornost.
V programu Blender FDM-1 samostatně vytváří ozubené kolo pomocí přesných pohybů myší a klávesových zkratek. Žádné klikání naslepo, žádné chyby z nepochopení rozhraní. Model prostě ví, co dělá.
Po méně než hodině dotrénování na reálných datech FDM-1 řídí auto v San Franciscu. Ano, čtete správně. Model, trénovaný primárně na počítačových obrazovkách, se přenesl do fyzického světa a zvládl navigaci zatáček. To je přesně ten druh generalizace, o které AI výzkumníci sní.
Třetí ukázka je možná nejpraktičtější: testování softwaru. FDM-1 prohledává aplikaci jako zkušený tester a hledá chyby. V ukázce s bankovní aplikací našel bezpečnostní chybu, která umožňovala odeslat převod dvakrát a dostat účet do mínusu. Tohle by normálně zabralo hodiny manuálního testování.
Za výsledky stojí i pozoruhodná technická infrastruktura. Tým postavil systém, který spouští přes milion testovacích běhů za hodinu na 80 000 virtuálních strojích. Každý virtuální stroj běží na minimálním Ubuntu desktopu, a jeden H100 GPU jich dokáže řídit 42 najednu. Latence od zachycení obrazovky po akci modelu? Pouhých 11 milisekund. To je rychlost, při které model reaguje přirozeně, bez znatelného zpoždění.
Standard Intelligence otevřeně říká, že věří ve vznik obecné umělé inteligence během příštího desetiletí. FDM-1 je jejich příspěvek k tomu, aby se to stalo zodpovědně a s pochopením toho, jak AI skutečně pracuje s počítačem. Počítačoví agenti přestávají být hračkou a stávají se reálnými spolupracovníky. A FDM-1 je zatím nejpřesvědčivějším důkazem, že tato cesta vede správným směrem.
