Meta AI TRIBE: AI model, který dekóduje mozek při sledování videí
Představte si, že umělá inteligence dokáže předpovědět, jak váš mozek reaguje na film, jen na základě videa, zvuku a textu. Právě to dokázal model TRIBE od Meta AI, který vyhrál první místo v soutěži Algonauts 2025. Tento 1-miliardový parametrů trimodální enkodér mozku, vyvinutý týmem Meta FAIR's Brain & AI, předpovídá odpovědi mozku na podněty z videa, audia a textu, a to s výrazným náskokem před 262 konkurenty.
Co je TRIBE a jak funguje?
TRIBE, zkratka pro TRImodal Brain Encoder, je první hluboká neuronová síť trénovaná k predikci mozkových odpovědí na videa přes celý mozek a více jedinců. Podle abstraktu z dokumentu autorů Stéphane d'Ascoli z Meta AI, model kombinuje předtrénované reprezentace textu, audia a videa z modelů jako Llama-3.2-3B, Wav2Vec-Bert-2.0 a VideoJEPA 2 gigantic. Tyto vstupy zpracovává transformerem, který zohledňuje časovou dynamiku, a predikuje BOLD signály z fMRI v 1 000 parcelách mozku podle Schaeferova atlasu.
Výsledky v soutěži Algonauts 2025
V soutěži Algonauts 2025 dosáhl TRIBE průměrného skóre 0,2146, což je lepší než druhý tým s 0,2096. Na datech z Courtois NeuroMod datasetu, kde čtyři subjekty sledovali seriál Friends a filmy jako The Bourne Supremacy nebo Hidden Figures, model predikoval odpovědi s normalizovanou Pearsonovou korelací 0,54 ± 0,1. Nejlepší výsledky měl v auditivních a jazykových oblastech, kde se blížil stropu šumu. Ablace ukázaly, že multimodální přístup překonává unimodální modely zejména v asociačních kortikálních oblastech, jako je prefrontální nebo parieto-occipito-temporální kortex.

Proč je multimodální přístup klíčový?
TRIBE integruje modality nelineárně a multisubjektově, což řeší limity předchozích modelů. Například textové embedy se extrahují s kontextem až 1 024 slov, audio z 60sekundových úseků a video z 64 snímků za 4 sekundy. Trénink na 80 hodinách fMRI dat na GPU trval 24 hodin, s ensemblingem 1 000 modelů pro lepší generalizaci. Model se osvědčil i na out-of-distribution datech, jako Pulp Fiction nebo Charlie Chaplin, s skóre až 0,2604.
Budoucnost a limity
TRIBE otevírá cestu k integrativnímu modelu kognice, ale má limity: pracuje na hrubé parcelaci mozku, jen na fMRI datech a čtyřech subjektech. Autoři zdůrazňují potenciál pro in silico experimenty v neurovědě. Kód je dostupný na GitHubu pod githubu.
