Microsoft AI dosahuje úspěšnosti 85% v diagnostice, čtyřikrát lepší než lékaři

Microsoft AI tým představil průlomové výsledky výzkumu, které ukazují, jak umělá inteligence dokáže postupně vyšetřovat a řešit nejsložitější diagnostické výzvy medicíny - případy, s nimiž si experti těžko poradí.

Revoluční výsledky Microsoft AI Diagnostic Orchestrator

Při testování proti skutečným případům z praxe publikovaných každý týden v New England Journal of Medicine, Microsoft AI ukázal, že jejich systém Microsoft AI Diagnostic Orchestrator (MAI-DxO) správně diagnostikuje až 85% případů z NEJM (New England Journal of Medicine), což je více než čtyřikrát vyšší míra úspěšnosti než u skupiny zkušených lékařů. MAI-DxO navíc dosáhl správné diagnózy nákladově efektivněji než lékaři.

S rostoucí poptávkou po zdravotní péči, náklady rostou neudržitelným tempem a miliardy lidí čelí mnohonásobným bariérám k lepšímu zdraví - včetně nepřesných a opožděných diagnóz. Lidé se stále více obracejí k digitálním nástrojům pro lékařské rady a podporu. Napříč produkty Microsoft AI pro spotřebitele, jako jsou Bing a Copilot, vidíme přes 50 milionů zdravotnických relací denně.

Překonání limitů tradičních testů

K výkonu lékařské praxe ve Spojených státech musí lékaři projít United States Medical Licensing Examination (USMLE), rigorózním a standardizovaným hodnocením klinických znalostí a rozhodování. USMLE otázky patřily mezi nejranější benchmarky používané k hodnocení AI systémů v medicíně.

Jen za tři roky pokročila generativní AI do bodu, kdy dosahuje téměř perfektní skóre na USMLE a podobných zkouškách. Tyto testy však primárně spoléhají na otázky s více možnostmi, které upřednostňují zapamatování před hlubokým porozuměním. Redukcí medicíny na jednorázové odpovědi na otázky s více možnostmi takové benchmarky nadhodnocují zdánlivou kompetenci AI systémů a zastírají jejich omezení.

Sequential Diagnosis Benchmark (SD Bench)

Microsoft AI se zaměřil na sekvenční diagnostiku, základní kámen skutečného lékařského rozhodování. V tomto procesu klinik začne s počáteční prezentací pacienta a poté iterativně vybírá otázky a diagnostické testy, aby dospěl k finální diagnóze.

Každý týden publikuje New England Journal of Medicine (NEJM) - jeden z předních světových lékařských časopisů - Case Record of the Massachusetts General Hospital, představující pacientovu cestu péče v detailním, narativním formátu. Tyto případy patří mezi diagnosticky nejsložitější a intelektuálně nejnáročnější v klinické medicíně.

Microsoft AI vytvořil interaktivní případové výzvy čerpané ze série případů NEJM - to, co nazývají Sequential Diagnosis Benchmark (SD Bench). Tento benchmark transformuje 304 nedávných NEJM případů do postupných diagnostických setkání, kde modely - nebo lidští lékaři - mohou iterativně klást otázky a objednávat testy.

Microsoft AI Diagnostic Orchestrator (MAI-DxO)

Microsoft AI vyvinul Microsoft AI Diagnostic Orchestrator (MAI-DxO), systém navržený k emulaci virtuálního panelu lékařů s různými diagnostickými přístupy spolupracujícími na řešení diagnostických případů. Microsoft věří, že koordinace více jazykových modelů bude klíčová pro řízení komplexních klinických pracovních toků.

MAI-DxO transformuje jakýkoli jazykový model do virtuálního panelu kliniků: může klást následné otázky, objednávat testy nebo doručit diagnózu, poté provést kontrolu nákladů a ověřit své vlastní uvažování před rozhodnutím, zda pokračovat.

Výjimečné výsledky testování

Microsoft AI vyhodnotil komplexní sadu špičkových generativních AI modelů proti 304 NEJM případům. Testované základní modely zahrnovaly GPT, Llama, Claude, Gemini, Grok a DeepSeek.

MAI-DxO zvýšil diagnostickou výkonnost každého testovaného modelu. Nejlépe fungující nastavení bylo MAI-DxO spárované s OpenAI's o3, které správně vyřešilo 85,5% benchmark případů NEJM. Pro srovnání také vyhodnotili 21 praktikujících lékařů z USA a Velké Británie, každý s 5-20 lety klinických zkušeností. Na stejných úkolech dosáhli tito experti průměrné přesnosti 20% u dokončených případů.

Nákladová efektivnost a přesnost

MAI-DxO je konfigurovatelný, umožňuje mu fungovat v rámci definovaných nákladových omezení. To umožňuje explicitní zkoumání kompromisů náklady-hodnota inherentních v diagnostickém rozhodování. Bez takových omezení by AI systém mohl jinak výchozím způsobem objednat každý možný test - bez ohledu na náklady, nepohodlí pacienta nebo zpoždění péče.

Důležité je, že Microsoft AI zjistil, že MAI-DxO dodal jak vyšší diagnostickou přesnost, tak nižší celkové testovací náklady než lékaři nebo jakýkoli jednotlivý testovaný základní model.

Budoucnost zdravotnictví

Lékaři jsou typicky charakterizováni šířkou nebo hloubkou jejich expertízy. Generalisti, jako rodinní lékaři, řídí širokou škálu stavů napříč věky a orgánovými systémy. Specialisté, jako reumatologové, se hluboce zaměřují na jeden systém, oblast nemoci nebo dokonce stav. Žádný jednotlivý lékař však nemůže pokrýt plnou složitost série případů NEJM. AI na druhou stranu nečelí tomuto kompromisu. Může sloučit šířku i hloubku expertízy, demonstrující schopnosti klinického uvažování, které v mnoha aspektech klinického uvažování převyšují ty jakéhokoli jednotlivého lékaře.

Tento druh uvažování má potenciál přeformovat zdravotnictví. AI by mohlo zmocnit pacienty k samosprávě rutinních aspektů péče a vybavit kliniky pokročilou podporou rozhodování pro komplexní případy. Jejich zjištění také naznačují, že AI může snížit zbytečné zdravotní náklady.

Omezení a další kroky

Výzkum má důležitá omezení. Ačkoli MAI-DxO vyniká v řešení nejsložitějších diagnostických výzev, je potřeba dalšího testování k posouzení jeho výkonu na běžnějších, každodenních prezentacích. Klinici v jejich studii pracovali bez přístupu ke kolegům, učebnicím nebo dokonce generativní AI.

Pro Microsoft AI je to jen první krok. Jsou povzbuzeni příležitostmi vpřed. Důležité výzvy zůstávají před tím, než může být generativní AI bezpečně a zodpovědně nasazena napříč zdravotnictvím. Potřebují důkazy čerpané ze skutečných klinických prostředí, spolu s příslušnými rámci řízení a regulace k zajištění spolehlivosti, bezpečnosti a účinnosti.

Kategorie: AI