Spośród wszystkich chorób neurologicznych znacznie wzrosła częstość występowania choroby Parkinsona (PD). PD jest zwykle diagnozowana na podstawie objawów ruchowych, takich jak drżenie spoczynkowe, sztywność i bradykinezja. Jednak wykrycie objawów niemotorycznych, takich jak zaparcia, apatia, utrata węchu i zaburzenia snu, mogłoby pomóc we wczesnym rozpoznaniu PD o kilka lat do dekad. W najnowszym badaniu ACS Central Science naukowcy z University of New South Wales (UNSW) omawiają narzędzie oparte na uczeniu maszynowym (ML), które może wykryć PD na wiele lat przed wystąpieniem pierwszych objawów. Obecnie ogólna dokładność diagnostyczna PD na podstawie objawów motorycznych wynosi 80%. Dokładność ta mogłaby wzrosnąć, gdyby PD była diagnozowana na podstawie biomarkerów, a nie głównie w oparciu o objawy ruchowe. Wiele chorób wykrywa się na podstawie biomarkerów związanych z procesami metabolicznymi. Biometabolity pochodzące z próbek osocza krwi lub surowicy są oceniane za pomocą narzędzi analitycznych, takich jak spektrometria mas (MS). Ostatnio popularność zyskały nieinwazyjne metody diagnostyczne wykorzystujące łój skórny i oddech. Poprzednie badania wykazały, że MS może przewidywać różnice w profilach metabolitów między kandydatami do pre-PD a osobami zdrowymi. Ta różnica w profilach metabolitów była obserwowana do 15 lat przed klinicznym rozpoznaniem PD. Tak więc biomarkery metabolitów mogłyby być wykorzystane do wykrywania PD znacznie wcześniej niż ostatnio stosowane podejścia. Podejścia ML są szeroko stosowane do opracowania dokładnych modeli predykcyjnych dla diagnozy choroby przy użyciu dużych danych metabolomicznych. Jednak rozwój modeli predykcyjnych opartych na całych zestawach danych metabolomicznych wiąże się z wieloma wadami, w tym przetrenowaniem, które może zmniejszyć wydajność diagnostyczną. Większość modeli jest opracowywana przy użyciu mniejszego podzbioru cech, które są wstępnie określone przez tradycyjne metody statystyczne. Niektóre podejścia ML, takie jak liniowa maszyna wektorów wspierających (SVM) i częściowa analiza dyskryminacyjna najmniejszych kwadratów (PLSDA) mogą nie uwzględniać kluczowych cech w zbiorach danych metabolomicznych. Ograniczenie to zostało jednak rozwiązane przez zaawansowane metody ML, takie jak sieci neuronowe (NN), które zostały zaprojektowane szczególnie do przetwarzania dużych danych. NN są wykorzystywane do opracowywania modeli, które mają nieliniowe działanie. Kluczową wadą modeli predykcyjnych opartych na NN jest brak informacji mechanistycznych i nieinterpretowalność modeli. Do interpretacji modeli ML opracowano ostatnio addytywne wyjaśnienia Shapleya (SHAP). Jednak technika ta nie została jeszcze wykorzystana do analizy zbiorów danych metabolomicznych. W obecnym badaniu naukowcy ocenili próbki krwi uzyskane z hiszpańskiego badania European Prospective Study on Nutrition and Cancer (EPIC) przy użyciu różnych narzędzi analitycznych, takich jak chromatografia gazowa-MS (GC-MS), elektroforeza kapilarna-MS (CE-MS) i chromatografia cieczowa-MS (LC-MS). Badanie EPIC dostarczyło danych metabolomicznych z próbek osocza krwi uzyskanych zarówno od zdrowych kandydatów, jak i tych, u których później rozwinęła się PD, aż do 15 lat po pierwotnym pobraniu ich próbki. Diane Zhang, badaczka z UNSW, opracowała narzędzie ML o nazwie Classification and Ranking Analysis using Neural Networks generates Knowledge from MS (CRANK-MS). Narzędzie to zostało zbudowane w celu interpretacji ram opartych na NN do analizy zbioru danych metabolomicznych generowanych przez narzędzia analityczne. CRANK-MS składa się z kilku funkcji, w tym zintegrowanych parametrów modelu, które oferują wysoką wymiarowość zbiorów danych metabolomicznych do analizy bez konieczności wstępnej selekcji cech chemicznych. CRANK-MS zawiera również SHAP do retrospektywnego badania i identyfikacji kluczowych cech chemicznych, które pomagają w dokładnym przewidywaniu modelu. Ponadto, SHAP umożliwia przeprowadzenie testów porównawczych z pięcioma znanymi metodami ML w celu porównania wydajności diagnostycznej i walidacji cech chemicznych. Dane metabolomiczne uzyskane od 39 pacjentów, którzy rozwinęli PD do 15 lat później, zostały zbadane za pomocą nowo opracowanego narzędzia opartego na ML. Profil metabolitów 39 pacjentów przed PD został porównany z 39 dopasowanymi pacjentami kontrolnymi, co pozwoliło na uzyskanie unikalnej kombinacji metabolitów, która może być wykorzystana jako wczesny sygnał ostrzegawczy przed wystąpieniem PD. Warto zauważyć, że to podejście ML wykazało większą dokładność w przewidywaniu PD przed diagnozą kliniczną. Pięć metabolitów uzyskało konsekwentnie wysokie wyniki we wszystkich sześciu modelach ML, wskazując tym samym na ich potencjalną przydatność w przewidywaniu przyszłego rozwoju PD. Klasy tych metabolitów obejmowały polifluorowane substancje alkilowe (PFAS), triterpenoidy, diacyloglicerole, steroidy i steroidy cholestanu. Wykryty metabolit diacylogliceroli - izomery 1,2-diacyloglicerolu (34:2) to niektóre oleje roślinne, takie jak oliwa z oliwek, która jest często spożywana w diecie śródziemnomorskiej. PFAS jest neurotoksyną środowiskową, która może zmieniać przetwarzanie, sygnalizację i funkcję komórek neuronalnych.