Vzpomínáte si ze školy na periodickou tabulku prvků? Tu tabulku, která na první pohled vypadala jako změť čísel a zkratek, ale ve skutečnosti skrývala dokonalý řád celého hmotného světa? Fyzici z Emory University právě udělali něco velmi podobného, jen tentokrát ne pro chemii, ale pro umělou inteligenci. A výsledek by mohl zásadně ovlivnit navrhování a trénování AI systémů.
Co je multimodální AI a proč s ní vývojáři tolik bojují
Umělá inteligence dávno přestala pracovat jen s textem. Moderní systémy kombinují text, obrázky, zvuk i video najednou. Říká se jim multimodální AI a jsou základem věcí, které dnes používáme každý den, od hlasových asistentů přes lékařské diagnostické nástroje až po systémy pro autonomní řízení.
Jenže tady nastává problém. Vývojáři, kteří takové systémy staví, čelí jedné nepříjemné otázce pokaždé znovu: který algoritmus vlastně zvolit? Existují doslova stovky různých přístupů a metod. Každá má svou takzvanou ztrátovou funkci, tedy matematický vzorec, který říká systému, jak moc se mýlí a jak se má zlepšit. Vybrat tu správnou byl dosud spíš um než věda. Hodně pokusů, hodně omylů, hodně promarněného výpočetního výkonu.
Přesně tenhle chaos chtěl profesor fyziky Ilya Nemenman z Emory University ukončit.
Roky u tabule aneb jak vznikal průlom
Nemenman a jeho tým se pustili do práce způsobem, který je v komunitě strojového učení poměrně neobvyklý. Místo aby spouštěli experimenty na výkonných serverech, sáhli po křídě a tabuli. Doslova.
Doktorand Eslam Abdelaleem a postdoktorální výzkumník Michael Martini strávili měsíce tím, že ručně procházeli rovnice. "Trávili jsme spoustu času v mé kanceláři a psali na tabuli," vzpomíná Martini. "Někdy jsem psal na papír a Eslam mi koukal přes rameno."
Nešlo o rychlý sprint. Šlo o několikaleté hledání, plné slepých uliček a návratů zpět k základům. Tým pracoval na matematických základech, konzultoval s Nemenmanem, zkoušel nápady na počítači a pak se znovu vracel k tabuli, když cesta nikam nevedla. "Bylo to hodně pokusů a omylů," přiznává Martini bez příkras.
Co hledali? Chtěli zjistit, jestli za stovkami různých AI metod nestojí nějaký společný, jednoduchý princip. A nakonec ho našli.
Jeden princip, který vládne všem: Komprimuj, ale chytře
Průlom přišel ve chvíli, kdy tým identifikoval jednu základní myšlenku, která propojuje zdánlivě nesouvisející AI metody. Komprimuj data natolik, aby sis zachoval jen to, co skutečně předpovídá výsledek. Nic víc, nic míň.
"Zjistili jsme, že mnoho z nejúspěšnějších AI metod se scvrkne na jednu jednoduchou myšlenku: zkomprimuj různé druhy dat tak akorát, aby sis zachoval kousky, které skutečně předpovídají to, co potřebuješ," vysvětluje Nemenman. "To nám dává jakýsi druh periodické tabulky AI metod. Různé metody spadají do různých buněk podle toho, jaké informace jejich ztrátová funkce zachovává nebo zahazuje."
Tým svůj přístup pojmenoval Variational Multivariate Information Bottleneck Framework, česky přibližně Variační vícerozměrný rámec informačního hrdla lahve. Název je složitý, ale princip je elegantně jednoduchý: rámec funguje jako regulační knoflík. Vývojář ho "otočí" na požadovanou hodnotu a systém mu řekne, které informace si pro daný úkol zachovat a které zahodit.
"Náš přístup je zobecněný a principiální," říká Abdelaleem. "Naším cílem je pomoci lidem navrhovat AI modely přizpůsobené konkrétnímu problému, který chtějí řešit, a zároveň jim umožnit pochopit, jak a proč každá část modelu funguje."
Chytré hodinky, které zaměnily vědu za cyklistiku
Věda má někdy nečekaně lidský rozměr. Den, kdy tým dosáhl svého průlomu, si Abdelaleem pamatuje velmi živě. Po vyčerpávajícím, ale euforickém závěrečném tahu se vydal domů z kampusu. Cestou se podíval na svůj Samsung Galaxy smartwatch, která pomocí AI sleduje zdravotní data, včetně tepové frekvence.
Hodinky mu zobrazily zprávu, která ho rozesmála. "Moje hodinky říkaly, že jsem tři hodiny jezdil na kole," vzpomíná Abdelaleem. "Tak interpretovaly úroveň vzrušení, které jsem cítil. Pomyslel jsem si: 'Páni, to je něco! Věda zřejmě může mít takový efekt.'"
Je to trochu ironické, ne? Systém, jehož nedokonalosti se tým snažil napravit, nedokázal rozlišit vědecké nadšení od fyzické námahy. Ale právě tohle je podstata celého výzkumu: AI potřebuje lepší nástroje, aby skutečně chápala kontext dat, která zpracovává.
Méně dat, méně energie, více smyslu
Výsledky výzkumu, publikované v prestižním časopise The Journal of Machine Learning Research, mají praktické dopady, které přesahují akademické prostředí.
Za prvé, rámec umožňuje vývojářům navrhovat nové algoritmy systematicky, místo aby tápali ve tmě. Mohou předpovídat, které přístupy budou fungovat, odhadnout, kolik trénovacích dat bude potřeba, a předem identifikovat možné slabiny systému.
Za druhé, a to je možná ještě zajímavější, rámec může výrazně snížit výpočetní náročnost AI. Tím, že pomáhá vyloučit nepodstatné vlastnosti dat, snižuje množství dat potřebných k trénování. Méně dat znamená méně výpočetního výkonu. Méně výkonu znamená nižší spotřebu energie. A to je dobrá zpráva pro každého, kdo sleduje, jak obrovské datové centrum spotřebuje tolik elektřiny jako malé město.
"Čím méně dat systém potřebuje, tím méně výpočetního výkonu vyžaduje ke svému provozu, a tím méně škodí životnímu prostředí," zdůrazňuje Nemenman. "To může také otevřít dveře průkopnickým experimentům pro problémy, které teď nemůžeme řešit, protože neexistuje dostatek dat."
Za třetí, rámec přináší něco, co v AI komunitě dlouho chybělo: srozumitelnost. Fyzici přistoupili k problému jinak než typičtí výzkumníci strojového učení. Ti se soustředí na přesnost výsledků, aniž by nutně chápali, proč systém funguje. Fyzici chtějí vědět proč. A právě tenhle pohled přinesl průlom.
"Komunita strojového učení se soustředí na dosažení přesnosti systému, aniž by nutně chápala, proč systém funguje," vysvětluje Abdelaleem. "Jako fyzici však chceme pochopit, jak a proč něco funguje. Zaměřili jsme se proto na hledání základních, sjednocujících principů, které propojují různé AI metody."
Kde AI a biologie splývají
Tým se nezastavuje. Rámec chce dál rozšiřovat a jednou z nejambicióznějších oblastí zájmu je biologie a kognitivní věda. Abdelaleem chce pochopit, jak lidský mozek současně komprimuje a zpracovává více zdrojů informací najednou.
"Chci pochopit, jak váš mozek současně komprimuje a zpracovává více zdrojů informací," říká. "Můžeme vyvinout metodu, která nám umožní vidět podobnosti mezi modelem strojového učení a lidským mozkem? To by nám mohlo pomoci lépe porozumět oběma systémům."
Je to odvážná vize. Ale když se podíváme na to, co tým dokázal, roky trpělivé práce u tabule, stovky rovnic, slepé uličky a nakonec jeden elegantní princip, který vše propojil, je těžké pochybovat o tom, že mají na to, aby ji naplnili.
Periodická tabulka prvků trvala chemikům staletí, než ji sestavili. Periodická tabulka pro AI vznikla za několik let. A možná právě tohle je nejlepší důkaz toho, jak rychle se věda pohybuje vpřed, když se fyzici rozhodnou vzít křídu do ruky a začít od začátku.
Zdroj: sciencedaily.com
