OpenAGI je nový král v ovládání počítačů?

Startup OpenAGI, který vede generální ředitel Zengyi Qin, se objevil na scéně s odvážným tvrzením. Jejich nový model Lux dokáže ovládat počítače lépe než systémy od OpenAI a Anthropicu – a to za zlomek ceny. Tento startup ze San Francisca, založený výzkumníkem z MIT, uvolnil Lux jako základní model, který interpretuje snímky obrazovky a provádí akce v desktopových aplikacích. Podle firmy dosahuje Lux úspěšnosti 83,6 % v benchmarku Online-Mind2Web, což je nejpřísnější test pro AI agenty ovládající počítače.

Pro srovnání, model Operator od OpenAI dosahuje jen 61,3 % a Claude Computer Use od Anthropic 56,3 %. To je obrovský skok. Qin v rozhovoru pro VentureBeat vysvětlil, že tradiční velké jazykové modely (large language models – LLM) se trénují na textu a učí se produkovat text. Naproti tomu Lux se trénuje na snímcích obrazovky a sekvencích akcí, takže se učí přímo produkovat akce pro ovládání počítače.

Význam benchmarku Online-Mind2Web

Tento benchmark vytvořili výzkumníci z Ohio State University a University of California, Berkeley. Obsahuje 300 různých úkolů na 136 skutečných webových stránkách – od rezervace letů po složité nákupy v e-shopech. Na rozdíl od starších testů probíhá v živém online prostředí, kde se stránky mění a objevují se nečekané překážky. Výzkumníci zjistili, že mnoho současných agentů, navzdory velkým investicím, nedosahuje lepších výsledků než jednoduchý agent SeeAct z ledna 2024.

Výzkum byl publikován v dubnu a přijat na konferenci Language Modeling 2025. Výzkumníci v blogovém příspěvku poznamenali, že současní agenti nejsou tak kompetentní, jak naznačují čísla z dřívějších testů. Leaderboard na Hugging Face sleduje výsledky od různých týmů a firem, a Lux tam teď vede.

Trénování na akcemi místo slov

OpenAGI používá metodu nazvanou Agentic Active Pre-training (agentický aktivní předtrénink). Místo statických dat se model učí z průzkumu prostředí. Akce umožňují modelu objevovat nové věci, které pak zpětně zlepšují trénink. Qin řekl, že lepší model vytváří lepší průzkum, což vede k lepším znalostem a nakonec k ještě lepšímu modelu. Tento cyklus umožňuje kontinuální zlepšování bez obřích datových sad.

Firma tvrdí, že Lux funguje za desetinu ceny modelů od OpenAI a Anthropic a provádí úkoly rychleji. To by mohlo vysvětlit, proč malý tým překonal velké hráče.

Lux ovládá nejen prohlížeče, ale celý desktop

Na rozdíl od konkurentů, kteří se zaměřují hlavně na webové prohlížeče, Lux zvládá aplikace na celém operačním systému. To zahrnuje práci s Excelem, komunikaci ve Slacku, design v Adobe programech nebo editaci kódu. Tato schopnost otevírá dveře pro široké využití v produktivitě.

OpenAGI uvolňuje i sadu pro vývojáře (software development kit – SDK), aby třetí strany mohly stavět aplikace na Lux. Firma spolupracuje s Intelem na optimalizaci pro zařízení na okraji sítě (edge devices), takže model poběží lokálně na noteboocích bez cloudu. To řeší obavy o bezpečnost dat. Qin zmínil i diskuse s AMD a Microsoft o dalších partnerstvích.

Bezpečnost na prvním místě

Agenti ovládající počítače přinášejí rizika, jako nechtěné převody peněz nebo mazání souborů. OpenAGI zabudovalo bezpečnostní mechanismy přímo do Luxu. Pokud model narazí na požadavek porušující bezpečnostní zásady, odmítne ho a upozorní uživatele.

V příkladu, když uživatel požádal o kopírování bankovních detailů do Googl dokumentu, Lux interně usoudil, že jde o citlivé informace, a akci zablokoval. Takové ochrany budou testovány výzkumníky, protože útoky jako prompt injection (vkládání škodlivých instrukcí) už ukázaly slabiny u jiných systémů.

Mozek za OpenAGI

Zengyi Qin dokončil doktorát na MIT v roce 2025, kde se zaměřoval na počítačové vidění, robotiku a strojové učení. Jeho práce vyšly na konferencích jako Computer Vision and Pattern Recognition, International Conference on Learning Representations a International Conference on Machine Learning.

Před OpenAGI vedl vývoj JetMoE, modelu trénovaného za méně než 100 000 dolarů (přibližně 2 300 000 Kč). Ten překonal model Mety LLaMA2-7B v benchmarkách. Jeho open-source projekty OpenVoice (klonování hlasu) má 35 000 hvězdiček na GitHubu a MeloTTS (text-to-speech) bylo staženo přes 19 000 000 milionů kopií.

Qin spoluzaložil MyShell, platformu pro AI agenty s šesti miliony uživatelů, kteří vytvořili přes 200 000 agentů a provedli miliardu interakcí.

Zdroj: venturebeat.com

Kategorie: AI