Vrátit se na blog

Blog /

AI /

Proč se některé dovednosti AI zlepšují rychleji než jiné

Ondřej Barták

podnikatel a programátor

6. 10. 2025

5 minut čtení

Nástroje umělé inteligence pro kódování se zlepšují opravdu rychle. Pokud nepracujete s kódem, možná si toho ani nevšimnete, ale modely jako GPT-5 a Gemini 2.5 otevřely celou řadu nových triků pro vývojáře, které lze automatizovat. Minulý týden to znovu potvrdil Sonnet 4.5. Na druhé straně dovednosti jako psaní emailů se vyvíjejí pomaleji. I když se model zlepší, produkt z toho nemusí mít stejný prospěch – zvláště pokud jde o chatbota, který zvládá desítky různých úkolů najednou. Umělá inteligence pořád postupuje vpřed, ale ten pokrok už není tak rovnoměrný jako dřív.

Tento rozdíl v postupu má jednoduché vysvětlení. Aplikace pro kódování těží z miliard snadno měřitelných testů, které je trénují na tvorbu funkčního kódu. Jde o posilování učení (reinforcement learning, RL), což je pravděpodobně největší motor pokroku v umělé inteligenci za posledních šest měsíců. Posilování učení funguje nejlépe, když existuje jasný metr úspěchu nebo neúspěchu, takže ho lze opakovat miliokrát bez nutnosti zastavovat se kvůli lidskému vstupu.

Jak se průmysl stále více spoléhá na posilování učení pro zlepšování produktů, objevuje se skutečný rozdíl mezi schopnostmi, které lze automaticky hodnotit, a těmi, které nelze. Dovednosti vhodné pro posilování učení, jako oprava chyb nebo soutěžní matematika, se zlepšují rychle, zatímco dovednosti jako psaní postupují jen postupně. Stručně řečeno, existuje mezera v posilování – a ta se stává jedním z nejdůležitějších faktorů pro to, co systémy umělé inteligence dokážou a nedokážou.

Proč kódování ideálně pasuje k posilování učení

V některých ohledech je vývoj softwaru perfektním oborem pro posilování učení. Ještě před érou umělé inteligence existovala celá poddisciplína zaměřená na testování, jak software obstojí pod tlakem – hlavně proto, že vývojáři potřebují zajistit, aby jejich kód nezkolaboval před nasazením. Takže i ten nejelegantnější kód musí projít jednotkovými testy, integračními testy, bezpečnostními testy a podobně. Lidští vývojáři tyto testy používají běžně k ověření svého kódu a, jak nedávno řekl senior ředitel pro vývojářské nástroje v Googlu, jsou stejně užitečné pro ověření kódu generovaného umělou inteligencí. Navíc jsou systematizované a opakovatelné v obrovském měřítku, což je ideální pro posilování učení.

Není snadné ověřit dobře napsaný email nebo kvalitní odpověď chatbota; tyto dovednosti jsou inherentně subjektivní a těžko měřitelné ve velkém. Ne každý úkol se dá zařadit do kategorií „snadno testovatelné“ nebo „těžko testovatelné“. Nemáme připravené testovací sady pro čtvrtletní finanční zprávy nebo pojistnou matematiku, ale dobře financovaný startup v účetnictví by si takovou sadu mohl vytvořit od nuly. Některé testovací sady budou fungovat lépe než jiné a některé firmy budou chytřejší v přístupu k problému. Ale testovatelnost základního procesu bude rozhodujícím faktorem, zda se z něj stane funkční produkt místo jen zajímavé ukázky.

Kde posilování učení překonává očekávání

Některé procesy se ukazují jako testovatelnější, než byste čekali. Kdybych se zeptal minulý týden, zařadil bych generování videa umělou inteligencí do kategorie „těžko testovatelné“, ale obrovský pokrok v novém modelu Sora 2 od OpenAI naznačuje, že to nemusí být tak složité. V Sora 2 se objekty už neobjevují a nemizí z ničeho nic. Tváře drží svůj tvar a vypadají jako konkrétní osoba, ne jen jako sbírka rysů. Záběry ze Sora 2 respektují zákony fyziky v zjevných i jemných způsobech. Pokud byste nahlédli za oponu, pravděpodobně byste našli robustní systém posilování učení pro každou z těchto vlastností. Dohromady dělají rozdíl mezi fotorealismem a zábavnou halucinací.

Tento princip se objevuje i v jiných oblastech. Například v autonomních vozidlech se trénink agentů posilování učení v simulaci ukazuje jako proveditelný, ale politiky často selhávají v nepředvídatelném reálném světě kvůli mezeře mezi simulací a realitou a bezpečnostním rizikům. Ve zdravotnictví nebo robotice by agenti posilování učení teoreticky mohli naučit provádět složité operace nebo fyzické úkoly, ale absence škálovatelných a bezpečných mechanismů odměn spolu s vysokými riziky chyb způsobuje, že zlepšování je pomalé.

Problémy s odměnami a efektivitou v posilování učení

Algoritmy posilování učení potřebují obrovské množství interakcí s prostředím, aby se naučily efektivní chování, což činí trénink v reálném světě nepraktickým pro mnoho úkolů. Simulace pomáhají, ale často vedou k politikám, které se nedokážou přenést do reálných podmínek – to je známé jako mezera mezi simulací a realitou. Posilování učení vyniká, když kritéria úspěchu jsou binární a snadno automaticky hodnocená, jako u kódování (kód se zkompiluje nebo ne) nebo matematiky (důkaz funguje nebo ne). Tyto úkoly poskytují jasné, škálovatelné zpětné vazby, což umožňuje agentům posilování učení zlepšovat se rychle a autonomně.

Naopak dovednosti jako psaní, mluvení nebo kreativní řešení problémů zahrnují subjektivní, kontextově závislé úsudky, což ztěžuje navrhnout přesné funkce odměn. Tento faktor způsobuje pomalý pokrok v oblastech, kde je zpětná vazba nejasná nebo nákladná na získání ve velkém měřítku. Dokonce i když agenti posilování učení fungují dobře, jejich porozumění hodnotám akcí může být povrchní, což maskuje nedostatky v přenosu dovedností nebo generalizaci.

Implikace pro startupy, ekonomiku a budoucnost

Toto není pevné pravidlo umělé inteligence. Jde o důsledek centrální role, kterou posilování učení hraje ve vývoji umělé inteligence, což se může snadno změnit s dalším vývojem modelů. Ale dokud je posilování učení hlavním nástrojem pro uvádění produktů umělé inteligence na trh, mezera v posilování se bude jen zvětšovat – s vážnými důsledky pro startupy i celou ekonomiku. Pokud proces skončí na správné straně této mezery, startupy ho pravděpodobně úspěšně automatizují – a kdokoli, kdo tu práci dělá teď, si možná bude muset hledat novou kariéru. Otázka, které služby ve zdravotnictví jsou trénovatelné posilováním učení, bude mít obrovské důsledky pro tvarování ekonomiky v příštích 20 letech. A pokud jsou překvapení jako Sora 2 nějakým vodítkem, na odpověď možná nebudeme muset čekat dlouho.

Mezera v posilování ovlivňuje, které dovednosti umělé inteligence dosáhnou praktické užitečnosti nejdříve, upřednostňuje domény s jasnými, automatizovatelnými odměnami, zatímco subjektivní nebo eticky složité dovednosti zaostávají. Překlenutí této mezery je klíčové pro dosažení umělé obecné inteligence (artificial general intelligence, AGI), protože vyžaduje, aby systémy posilování učení učily efektivně, generalizovaly přes domény a odvozovaly cíle z nejasných zpětných vazeb – schopnosti, které současné systémy postrádají. Bezpečnost a etika umělé inteligence jsou hluboce ovlivněny; agenti posilování učení se mohou chovat nebezpečně nebo neeticky, pokud jsou funkce odměn špatně navržené nebo nesouladné s lidskými hodnotami.

Zdroj: techcrunch.com

Kategorie: AI