Co je semantický design?
Představte si, že umělá inteligence (AI) čte genom jako knihu a doplňuje chybějící části tak, aby dávaly smysl. To je základ semantického designu, metody popsané v článku z Nature. Model Evo, vyvinutý vědci dokáže generovat nové sekvence DNA na základě kontextu z prokaryotických genomů. Evo se trénoval na datech z OpenGenome, což je sbírka přes 80 000 bakteriálních a archaeálních genomů plus 2 miliony sekvencí fágů a plazmidů, celkem 300 miliard nukleotidů.
Model Evo 1.5, rozšířená verze původního Evo 1, zpracovává sekvence dlouhé až 8192 tokenů. V testech dokázal dokončit konzervované geny jako rpoS z Escherichia coli s 85% přesností při pouhých 30% vstupní sekvence. Pro operony jako trp nebo modABC generoval sekvence s více než 80% shodou s přirozenými proteiny, a to i při použití antisense pramenů pro směrování.
Generování toxin-antitoxin systémů
Semantický design se osvědčil při tvorbě toxin-antitoxin systémů, které bakterie používají k obraně proti fágům (což je virus, který infikuje a množí se v bakteriích). Pro typ II systémy Evo vygeneroval toxin EvoRelE1 s 71% shodou s RelE, který způsobil 70% snížení růstu bakterií. Poté z tohoto toxinu jako promptu vznikly antitoxiny EvoAT1 až EvoAT4, které zachránily růst na 70-100%. EvoAT2 neutralizoval tři přirozené toxiny: RelE, MazF a YoeB, přestože měl jen 21-27% shod s přirozenými proteiny.
Pro typ III systémy Evo vytvořil toxin EvoT1, který snížil přežití bakterií na 33%, bez významné shody s známými toxiny. Antitoxin EvoAT6, RNA sekvence s 78% shodou s ToxI z Bacillus multifaciens, neutralizoval ToxN s 88% úspěšností. Struktury předpovězené AlphaFold 3 ukázaly podobnost v sekundárních motivech, přestože sekvence byly odlišné.
Nové anti-CRISPR proteiny
Evo také navrhl anti-CRISPR proteiny (Acr), které blokují CRISPR-Cas systémy. Použitím promptů z Acr operonů vznikly kandidáti jako EvoAcr1 až EvoAcr5. Ty chránily bakterie před SpCas9 s úspěšností 74-101% v testech přežití a fágových infekcích. EvoAcr1 a EvoAcr2 neměly žádnou významnou shodu se známými proteiny, přesto fungovaly robustně. EvoAcr3 měl 25% shodu s sigma-70 faktorem, EvoAcr4 58% s AcrIIA2 a EvoAcr5 31% s AcrIIA4.
Tyto proteiny byly složené z fragmentů 15-31 přirozených proteinů, podobně jako de novo designy z RFdiffusion nebo BindCraft. Úspěšnost 17% v testech překonala očekávání bez strukturálních předpokladů.
SynGenome: Databáze umělé DNA
Evo vygeneroval SynGenome, databázi s přes 120 miliard bází syntetické DNA z 1,7 milionu promptů z UniProt. Každý prompt vedl k sekvencím anotovaným podle Gene Ontology a InterPro. SynGenome zachovává přirozené vzory, jako délky ORFů nebo frekvence Pfam domén (korelace 0,78 s OpenGenome).
Síť asociací v SynGenome odhalila vazby, například DUF2871 s cytochromem c nebo DUF2797 s rhomboid doménami, což podporuje hypotézy o neznámých funkcích. Databáze obsahuje chimérické proteiny, jako fúze domén, a je dostupná na evodesign.org/syngenome pro další výzkum.
Tento přístup otevírá dveře k designu genů mimo přirozenou evoluci, s aplikacemi v biotechnologiích.
