Vědci se rozhodli prozkoumat, jak spánek souvisí s různými nemocemi. Zaměřili se na polysomnografii (PSG), což je standardní metoda, která zaznamenává signály z mozku, srdce, svalů a dýchání během noci. Cílem bylo vytvořit model nazvaný SleepFM, který by z těchto dat dokázal předpovídat budoucí onemocnění. Použili obrovské množství dat – přes 585 000 hodin nahrávek od zhruba 65 000 lidí z výzkumných stanic jako Stanford Sleep Clinic (SSC), BioSerenity a dalších. Tyto data pokrývaly lidi od 1 do 100 let.
Aby to zjistili, shromáždili PSG nahrávky z různých center. Každá nahrávka obsahovala signály jako elektroencefalogram (EEG), elektrokardiogram (ECG), elektromyogram (EMG) a respirační signály. Data předzpracovali tak, že všechny signály převedli na frekvenci 128 Hz pro jednotnost. Potom je rozdělili do 5sekundových oken, která sloužila jako základní jednotky pro model.
Model SleepFM trénovali pomocí metody nazvané leave-one-out kontrastivní učení (LOO-CL). Tato technika porovnává signály z různých modalit (mozek, srdce nebo dýchání) a učí model najít společné vzory, i když některé kanály chybí. Architektura zahrnovala jednorozměrné konvoluční vrstvy pro extrakci rysů, pak attention pooling, které zpracovává různý počet kanálů, a transformer blok pro zachycení časových závislostí v 5minutových oknech. Pretrénovali ho na datech z SSC, BioSerenity, MESA a MrOS, přičemž Sleep Heart Health Study (SHHS) nechali stranou pro testování generalizace.
Pro predikci nemocí spojili PSG data s elektronickými zdravotními záznamy (EHR) z SSC. Mapovali diagnózy na 1868 kategorií phecode a vybrali ty s prevalencí nad 1,5 %. Pozitivní případy definovali jako ty, kde nemoc nastala více než 7 dní po PSG studii. Model jemně doladili s dvouvrstvou sítí LSTM (long short-term memory) na zmrazených embeddincích, přidali věk a pohlaví, a použili multilabel Cox proportional hazards ztrátu pro predikci.
Výsledky
Výsledky ukázaly, že model SleepFM dokáže předpovídat 130 různých nemocí s vysokou přesností – minimálně 75 % úspěšnosti na škále od 0 do 100 %, kde 50 % by znamenalo náhodnou hádku a 100 % dokonalost (a tyto výsledky jsou statisticky spolehlivé, s velmi nízkou pravděpodobností náhody). Například předpovídá riziko úmrtí ze všech příčin s přesností 84 %, demenci s 85 %, infarkt myokardu s 81 %, srdeční selhání s 80 %, chronické onemocnění ledvin se 79 %, mrtvici se 78 % a fibrilaci síní se 78 %. A to všechno jen na základě dat z jedné noci spánku. Model fungoval skvěle i na datech z jiné studie nazvané SHHS, kde předpovídal mrtvici s přesností 82 %, srdeční selhání s 85 % a úmrtí na srdeční a cévní onemocnění s 88 %
Tento model překonává základní modely, jako je ten založený jen na demografických datech (věk, pohlaví, BMI, rasa) nebo end-to-end model na syrových PSG datech. Například pro predikci úmrtí dosáhl model přesnosti 85 %, zatímco základní srovnávací model jen 78 %. Zlepšení se pohybovalo od 5 % do 17 % v této metrice přes různé kategorie nemocí, jako neurologické, srdeční a cévní nebo hormonální onemocnění.
Analýza modality ukázala, že signály z mozku (BAS) jsou nejlepší pro mentální a neurologické nemoci, respirační signály pro dýchací a metabolické, a EKG pro srdeční. Nejlepší výsledky ale přinesla kombinace všech. Model generalizoval i na data po roce 2020 a na SHHS, kde nebyl trénován.
SleepFM otevírá cestu k lepšímu využití spánkových dat pro predikci nemocí, s důrazem na škálovatelnost a přesnost bez potřeby manuálních popisů dat.
