piątek, 28 kwietnia 2023

Naukowcy wykorzystują uczenie maszynowe do identyfikacji „syntetycznych ekstremalnych” sekwencji DNA

Sztuczna inteligencja eksplodowała w naszych kanałach informacyjnych, a ChatGPT i powiązane technologie AI stały się przedmiotem szerokiej kontroli publicznej. Oprócz popularnych chatbotów, biolodzy znajdują sposoby na wykorzystanie sztucznej inteligencji do badania podstawowych funkcji naszych genów. Wcześniej naukowcy z Uniwersytetu Kalifornijskiego w San Diego, którzy badają sekwencje DNA włączające geny, wykorzystali sztuczną inteligencję do zidentyfikowania enigmatycznego elementu układanki związanego z aktywacją genów, fundamentalnym procesem związanym ze wzrostem, rozwojem i chorobami. Korzystając z uczenia maszynowego, rodzaju sztucznej inteligencji, profesor James T. Kadonaga ze School of Biological Sciences i jego koledzy odkryli region promotora rdzenia (DPR), "bramę" kodu aktywacji DNA, który jest zaangażowany w działanie nawet jednej trzeciej naszych genów. Opierając się na tym odkryciu, Kadonaga oraz badacze Long Vo ngoc i Torrey E. Rhyne wykorzystali teraz uczenie maszynowe do identyfikacji "syntetycznych ekstremalnych" sekwencji DNA o specjalnie zaprojektowanych funkcjach w aktywacji genów. Publikując w czasopiśmie Genes & Development, naukowcy przetestowali miliony różnych sekwencji DNA za pomocą uczenia maszynowego (AI), porównując element aktywacji genu DPR u ludzi i muszek owocowych (Drosophila). Korzystając ze sztucznej inteligencji, byli w stanie znaleźć rzadkie, dostosowane do potrzeb sekwencje DPR, które są aktywne u ludzi, ale nie u muszek owocowych i odwrotnie. Mówiąc bardziej ogólnie, podejście to można teraz wykorzystać do identyfikacji syntetycznych sekwencji DNA o aktywności, która może być przydatna w biotechnologii i medycynie. W przyszłości strategia ta może zostać wykorzystana do identyfikacji syntetycznych ekstremalnych sekwencji DNA o praktycznych i użytecznych zastosowaniach. Zamiast porównywać ludzi (warunek X) z muszkami owocowymi (warunek Y), moglibyśmy przetestować zdolność leku A (warunek X), ale nie leku B (warunek Y) do aktywacji genu. Metodę tę można również wykorzystać do znalezienia niestandardowych sekwencji DNA, które aktywują gen w tkance 1 (warunek X), ale nie w tkance 2 (warunek Y). Istnieją niezliczone praktyczne zastosowania tego podejścia opartego na sztucznej inteligencji. Syntetyczne ekstremalne sekwencje DNA mogą być bardzo rzadkie, być może jedna na milion; jeśli istnieją, można je znaleźć za pomocą sztucznej inteligencji". James T. Kadonaga, profesor, Wydział Biologii Molekularnej, Uniwersytet Kalifornijski w San Diego. Uczenie maszynowe to gałąź sztucznej inteligencji, w której systemy komputerowe nieustannie doskonalą się i uczą w oparciu o dane i doświadczenie. W nowych badaniach Kadonaga, Vo ngoc (były badacz podoktorancki UC San Diego, obecnie w Velia Therapeutics) i Rhyne (pracownik naukowy) wykorzystali metodę znaną jako regresja wektora wsparcia do "trenowania" modeli uczenia maszynowego z 200 000 ustalonych sekwencji DNA w oparciu o dane z rzeczywistych eksperymentów laboratoryjnych. Były to cele przedstawione jako przykłady dla systemu uczenia maszynowego. Następnie "wprowadzili" 50 milionów testowych sekwencji DNA do systemów uczenia maszynowego dla ludzi i muszek owocowych i poprosili je o porównanie sekwencji i zidentyfikowanie unikalnych sekwencji w dwóch ogromnych zbiorach danych. Podczas gdy systemy uczenia maszynowego wykazały, że sekwencje ludzi i muszek owocowych w dużej mierze się pokrywały, naukowcy skupili się na podstawowym pytaniu, czy modele sztucznej inteligencji mogą zidentyfikować rzadkie przypadki, w których aktywacja genów jest wysoce aktywna u ludzi, ale nie u muszek owocowych. Odpowiedź brzmiała "tak". Modelom uczenia maszynowego udało się zidentyfikować sekwencje DNA specyficzne dla ludzi (i muszek owocowych). Co ważne, przewidywane przez sztuczną inteligencję funkcje ekstremalnych sekwencji zostały zweryfikowane w laboratorium Kadonagi przy użyciu konwencjonalnych (mokrych) metod testowania. "Przed rozpoczęciem tej pracy nie wiedzieliśmy, czy modele sztucznej inteligencji są wystarczająco "inteligentne", aby przewidzieć aktywność 50 milionów sekwencji, w szczególności "ekstremalnych" sekwencji odstających o nietypowej aktywności. Jest to więc bardzo imponujące i dość niezwykłe, że modele sztucznej inteligencji mogły przewidzieć aktywność rzadkich, ekstremalnych sekwencji jeden na milion" - powiedział Kadonaga, który dodał, że przeprowadzenie porównywalnych 100 milionów mokrych eksperymentów laboratoryjnych, które przeanalizowała technologia uczenia maszynowego, byłoby zasadniczo niemożliwe, ponieważ każdy mokry eksperyment laboratoryjny trwałby prawie trzy tygodnie. Rzadkie sekwencje zidentyfikowane przez system uczenia maszynowego stanowią udaną demonstrację i przygotowują grunt pod inne zastosowania uczenia maszynowego i innych technologii sztucznej inteligencji w biologii. "W życiu codziennym ludzie znajdują nowe zastosowania dla narzędzi AI, takich jak ChatGPT. Tutaj zademonstrowaliśmy wykorzystanie sztucznej inteligencji do projektowania niestandardowych elementów DNA w aktywacji genów. Metoda ta powinna mieć praktyczne zastosowanie w biotechnologii i badaniach biomedycznych" - powiedział Kadonaga. "Mówiąc szerzej, biolodzy są prawdopodobnie na samym początku wykorzystywania możliwości technologii AI".