Zkušený chemik se podívá na navržený postup syntézy a během chvíle řekne, že to nepůjde. Ne proto, že by něco počítal. Prostě to vidí. Přesně tenhle druh úsudku se výzkumníci z lausannské polytechniky EPFL pokusili naučit stroje. A podle všeho se jim to povedlo.
Výsledkem je systém Synthegy popsaný v prestižním vědeckém časopise Matter. Jde o nástroj, který propojuje tradiční počítačové algoritmy pro plánování chemické syntézy s velkými jazykovými modely. Chemikům umožňuje zadávat pokyny prostou češtinou nebo angličtinou a dostávat zpět seřazené návrhy postupů spolu s vysvětlením, proč ten který dává smysl.
Navrhování molekul je jedním z nejtěžších úkolů v chemii. Každá sloučenina, ať už jde o lék nebo pokročilý materiál, vyžaduje pečlivě promyšlenou sérii reakcí. Chemici obvykle postupují pozpátku: začínají cílovou molekulou a hledají jednodušší výchozí látky a proveditelné reakční cesty. Tento přístup se nazývá retrosyntéza.
Počítačové nástroje dnes dokáží prohledat obrovské chemické prostory a nabídnout stovky možných postupů. Problém byl v tom, že je neuměly hodnotit. Seřadit je podle toho, co by zkušený odborník skutečně zvolil. Filtry a pevně nastavená pravidla sice pomáhala, ale každá změna strategie znamenala přepisovat kód. Hodiny práce místo minut.
Jak funguje Synthegy
Systém pracuje ve dvou fázích. Nejprve tradiční software pro retrosyntézu vygeneruje kandidátní postupy, čerpá z obrovských reakčních databází a desetiletí výzkumu. Do hry pak vstoupí jazykový model. Každý navržený postup se převede do textové podoby. Model ho přečte a porovná s instrukcí, kterou chemik zadal na začátku. Třeba: vyhni se ochranným skupinám nebo cyklohexanový kruh tvoř co nejdřív. Synthegy každý postup ohodnotí, seřadí a vysvětlí své rozhodnutí.
Ohodnocení 60 navržených postupů trvá přibližně 12 minut a stojí kolem 2 až 3 dolarů na výpočetní kapacity. To je význmané zkrácení doby, která dřív trvala hodiny.
„Při tvorbě nástrojů pro chemiky hodně záleží na uživatelském rozhraní. Dřívější nástroje spoléhaly na těžkopádné filtry a pravidla," říká Andres M. Bran, první autor studie. „Se Synthegy dáváme chemikům možnost prostě mluvit, což jim umožňuje postupovat daleko rychleji a pracovat s komplexnějšími syntetickými nápady."
Systém myslí i na úrovni elektronů
Retrosyntéza je jen jedna polovina příběhu. Stejnou logikou Synthegy přistupuje i k reakčním mechanismům, tedy k detailnímu popisu toho, jak reakce probíhá krok za krokem pohybem elektronů.
Právě mechanismy pomáhají chemikům pochopit, proč reakce funguje, ne jen co z ní vzejde. Synthegy rozkládá reakce na elementární pohyby elektronů a jazykový model každý krok posuzuje. Chemik může přidat kontext: teplotu, hypotézu o konkrétní cestě, podmínky reakce. Model to vezme v potaz.
„Propojení plánování syntézy a mechanismů je velmi vzrušující: obvykle používáme mechanismy k objevování nových reakcí, které nám umožňují syntetizovat nové molekuly," říká Bran. „Naše práce tento prostor překlenuje výpočetně, prostřednictvím jednotného rozhraní v přirozeném jazyce."
Jak si Synthegy vedlo před odborníky
Tým z EPFL nechtěl zůstat jen u interních testů. Provedl dvojitě zaslepenou studii, do které zapojil 36 chemiků. Ti dostávali páry navržených postupů pro stejnou cílovou molekulu a měli říct, který lépe odpovídá zadané instrukci.
Tým potom jejich volby porovnal se Synthegy. Z 368 platných hodnocení se systém s odborníky shodl v 71,2 % případů. Ne dokonalé skóre, ale dost vysoké na to, aby to nebyla náhoda. Autoři studie z toho vyvozují, že model skutečně zachycuje důležité uvažování, ne jen povrchní znaky textu.
Před tímto výzkumem nikdo neprokázal, že by jazykový model dokázal hodnotit stovky vícekrokových syntetických postupů podle zadané strategie a souhlasit s lidskými experty ve více než polovině případů.
Synthegy má i své slabiny
Systém má kromě výše zmíněného i jasné slabiny. Menší jazykové modely podávají výkon blízký náhodě. Synthegy funguje jen s těmi největšími a nejdražšími modely. Někdy si model splete směr reakce, což vede k chybným závěrům o proveditelnosti. A postupy delší než 20 kroků systém přestává zvládat smysluplně sledovat.
Navíc zmíněné skóre 71,2 % pochází z konkrétního výřezu problému. Hodnocené dvojice postupů měly 6 až 15 kroků a byly posuzovány vůči jednomu typu strategické instrukce. Jak si systém povede s kratšími postupy nebo jinak formulovanými pokyny, zatím nikdo nezjišťoval.
Proč je to jiný přístup
Většina debat o umělé inteligenci v chemii se točí kolem generování: AI navrhuje struktury, AI předpovídá vlastnosti. Synthegy jde směrem, kde jazykové modely negenerují chemii, ale hodnotí ji.
Tradiční software dělá to, co umí nejlépe: prohledává obrovské prostory možností. Jazykový model dělá to, co umí nejlépe on: čte, chápe kontext a porovnává s instrukcí. Vzniká tedy nástroj, který dokáže zachytit část toho, čemu se v laboratoři říká zkušenost. Pro doktorandy to znamená přístup k instinktu seniorního chemika na jedno zadání. Pro výzkumné laboratoře to zkracuje cestu od nápadu k prověřené syntetické strategii.
