Blog /
AI /
FDM-1: AI model, který se učí ovládat software tím, že se dívá na videa

FDM-1: AI model, který se učí ovládat software tím, že se dívá na videa

Ondřej Barták
Ondřej Barták
podnikatel a programátor
26. 2. 2026
3 minut čtení
Poslechněte si článek
Audio verze článku
FDM-1: AI model, který se učí ovládat software tím, že se dívá na videa

Představte si, že dostanete nového kolegu. Nemusíte mu nic vysvětlovat, protože se sám podíval na miliony hodin záznamu toho, jak lidé pracují s počítačem, a prostě to pochopil. Přesně tohle se pokusil vytvořit malý tým ze San Francisca pod hlavičkou společnosti Standard Intelligence. A výsledek? Model s názvem FDM-1, který svět počítačových agentů postavil na hlavu.

FDM-1 a proč dosavadní přístupy nestačí

Dosud fungoval vývoj počítačových AI agentů takto: vzal se jazykový model s vizuálním vnímáním, dotrénoval se na screenshotech, které ručně popsali speciálně školení lidé, a pak se model naučil konkrétní úkoly přes posilovaní učení. Zní to rozumně, ale má to jeden obrovský háček.

Největší veřejně dostupný dataset pro počítačové agenty obsahuje méně než 20 hodin záznamu. Dvacet hodin. Přitom na internetu leží desítky milionů hodin videí z editace filmů, programovacích livestreamů, herních průchodů a dalšího obsahu, kde lidé pracují s počítačem. Tohle bohatství dosavadní modely prostě nedokázaly využít. Navíc zvládaly jen pár sekund kontextu, takže složitější, dlouhodobé úkoly pro ně byly nedosažitelné.

Standard Intelligence přišlo s jiným přístupem. Trénovalo FDM-1 na 11 milionech hodin videozáznamů obrazovky. To je srovnatelné s tím, co GPT-3 udělal s textem z internetu. Jenže video je jiný oříšek než text.

Jak model pozná, co uživatel dělal, když se na to jen dívá? Tady přichází na scénu tzv. inverzní dynamický model (IDM). Funguje jednoduše: pokud se na obrazovce objeví písmeno "K", s velkou pravděpodobností někdo stiskl klávesu "K". IDM se naučil z 40 000 hodin ručně označených záznamů a pak automaticky popsal zbývající miliony hodin dat. Bez tohoto kroku by celý projekt nebyl možný.

Vlastní video enkodér

Největší technická výzva ale spočívala jinde. Běžné modely spotřebují obrovské množství tokenů na zpracování videa. Claude od Anthropicu zvládne v okně 200 000 tokenů přibližně 162 snímků. FDM-1 jich zvládne přes 48 000. To je zhruba stokrát více než OpenAI a přes stokrát více než Claude.

Jak to dokázali? Vytvořili vlastní video enkodér trénovaný na maskovaném kompresním cíli, který se naučil rozlišovat, kde je na obrazovce hodně informací a kde málo. Výsledek je impozantní: do kontextového okna 1 milionu tokenů se vejde skoro dvě hodiny videa ve 30 snímcích za sekundu. To otevírá dveře k úkolům, které trvají desítky minut, jako je 3D modelování nebo komplexní finanční analýza.

Co FDM-1 skutečně umí

Tým ukázal konkrétní ukázky schopností modelu a každá z nich stojí za pozornost.

V programu Blender FDM-1 samostatně vytváří ozubené kolo pomocí přesných pohybů myší a klávesových zkratek. Žádné klikání naslepo, žádné chyby z nepochopení rozhraní. Model prostě ví, co dělá.

Po méně než hodině dotrénování na reálných datech FDM-1 řídí auto v San Franciscu. Ano, čtete správně. Model, trénovaný primárně na počítačových obrazovkách, se přenesl do fyzického světa a zvládl navigaci zatáček. To je přesně ten druh generalizace, o které AI výzkumníci sní.

Třetí ukázka je možná nejpraktičtější: testování softwaru. FDM-1 prohledává aplikaci jako zkušený tester a hledá chyby. V ukázce s bankovní aplikací našel bezpečnostní chybu, která umožňovala odeslat převod dvakrát a dostat účet do mínusu. Tohle by normálně zabralo hodiny manuálního testování.

Za výsledky stojí i pozoruhodná technická infrastruktura. Tým postavil systém, který spouští přes milion testovacích běhů za hodinu na 80 000 virtuálních strojích. Každý virtuální stroj běží na minimálním Ubuntu desktopu, a jeden H100 GPU jich dokáže řídit 42 najednu. Latence od zachycení obrazovky po akci modelu? Pouhých 11 milisekund. To je rychlost, při které model reaguje přirozeně, bez znatelného zpoždění.

Standard Intelligence otevřeně říká, že věří ve vznik obecné umělé inteligence během příštího desetiletí. FDM-1 je jejich příspěvek k tomu, aby se to stalo zodpovědně a s pochopením toho, jak AI skutečně pracuje s počítačem. Počítačoví agenti přestávají být hračkou a stávají se reálnými spolupracovníky. A FDM-1 je zatím nejpřesvědčivějším důkazem, že tato cesta vede správným směrem.

Kategorie: AI
Líbil se vám tento článek?
Objevte další zajímavé příspěvky na blogu
Zpět na blog
Editee Dashboard

Tvořte 10x rychleji na pár kliknutí s editee AI

Umělá inteligence za vás vytvoří kvalitní textový a vizuální obsah pro vaše sociální sítě, blog, reklamy, web a spoustu dalšího během pár sekund!

Související příspěvky

OpenAI staví v Londýně největší výzkumné centrum mimo USA OpenAI staví v Londýně největší výzkumné centrum mimo USA
Londýn si právě připsal velké vítězství v globálním závodě o umělou inteligenci. OpenAI, tvůrce ChatGPT oznámil, že z londýnské pobočky udělá svůj n...
3 min čtení
27. 2. 2026
AI agent OpenClaw neposlech příkaz a smazal e-maily bezpečnostní expertce z Mety AI agent OpenClaw neposlech příkaz a smazal e-maily bezpečnostní expertce z Mety
Summer Yue, výzkumnice v oblasti AI bezpečnosti pracující pro Metu, svěřila svůj přeplněný e-mailový inbox autonomnímu AI agentovi OpenClaw s jednoduc...
4 min čtení
27. 2. 2026
Šokující výsledky simulací: AI modely volily jaderný úder v 95 % válečných scénářů Šokující výsledky simulací: AI modely volily jaderný úder v 95 % válečných scénářů
Profesor Kenneth Payne z londýnské King's College London posadil tři nejpokročilejší jazykové modely světa ke stolu a řekl jim: hrajeme válečnou hru...
3 min čtení
27. 2. 2026
Cestování

USA

Texas
Podnikání Podnikání v USA
Přihlaste se k odběru našeho newsletteru
Zůstaňte informováni o nejnovějších příspěvcích, exkluzivních nabídkách, a aktualizacích.