Krio-tomografia elektronowa (cryo-ET) wyłania się jako potężna technika dostarczająca szczegółowych obrazów 3D środowisk komórkowych i zamkniętych biomolekuł. Jednakże, jednym z wyzwań tej metodologii jest identyfikacja cząsteczek białek na obrazach w celu dalszego przetwarzania. Zespół badawczy wokół Stefana Raunsera, dyrektora w MPI Fizjologii Molekularnej w Dortmundzie, kierowany przez Thorstena Wagnera, opracował oprogramowanie do wybierania białek w zatłoczonych objętościach komórkowych. Nowe narzędzie open-source, zwane TomoTwin, oparte jest na głębokim uczeniu metrycznym i pozwala naukowcom zlokalizować kilka białek z wysoką dokładnością i przepustowością bez ręcznego tworzenia lub ponownego szkolenia sieci za każdym razem. TomoTwin toruje drogę do zautomatyzowanej identyfikacji i lokalizacji białek bezpośrednio w ich środowisku komórkowym, rozszerzając potencjał krio-ET." Gavin Rice, współautor publikacji Cryo-ET ma potencjał rozszyfrowania, jak biomolekuły działają w komórce, a przez to odsłonięcia podstaw życia i pochodzenia chorób. W eksperymencie krio-ET naukowcy wykorzystują transmisyjny mikroskop elektronowy do uzyskania trójwymiarowych obrazów, zwanych tomogramami, objętości komórek zawierających złożone biomolekuły. Aby uzyskać bardziej szczegółowy obraz każdego z różnych białek, uśredniają oni jak najwięcej ich kopii - podobnie jak fotografowie rejestrują to samo zdjęcie przy różnych ekspozycjach, aby później połączyć je w idealnie naświetlony obraz. Co kluczowe, trzeba prawidłowo zidentyfikować i zlokalizować różne białka na zdjęciu przed ich uśrednieniem. "Naukowcy mogą osiągnąć setki tomogramów dziennie, ale brakowało nam narzędzi do pełnej identyfikacji cząsteczek w ich obrębie" - mówi Rice. Do tej pory badacze używali algorytmów opartych na szablonach znanych już struktur molekularnych do wyszukiwania dopasowań w tomogramach, ale te mają tendencję do bycia podatnymi na błędy. Inną opcją jest ręczna identyfikacja cząsteczek, która zapewnia wysoką jakość zbierania, ale zajmuje od kilku dni do kilku tygodni dla każdego zestawu danych. Inną możliwością byłoby zastosowanie pewnej formy nadzorowanego uczenia maszynowego. Narzędzia te mogą być bardzo dokładne, ale obecnie brakuje im użyteczności, ponieważ wymagają ręcznego etykietowania tysięcy przykładów w celu wytrenowania oprogramowania dla każdego nowego białka, co jest zadaniem prawie niemożliwym dla małych cząsteczek biologicznych w zatłoczonym środowisku komórkowym. Nowo opracowane oprogramowanie TomoTwin pokonuje wiele z tych przeszkód: Uczy się wybierać cząsteczki, które mają podobny kształt w obrębie tomogramu i mapuje je do przestrzeni geometrycznej - system jest nagradzany za umieszczanie podobnych białek blisko siebie i karany w przeciwnym wypadku. W nowej mapie badacze mogą wyodrębnić i dokładnie zidentyfikować różne białka i wykorzystać to do zlokalizowania ich wewnątrz komórki. "Jedną z zalet TomoTwin jest to, że zapewniamy wstępnie wytrenowany model kompletacji" - mówi Rice. Dzięki usunięciu etapu szkolenia oprogramowanie może działać nawet na lokalnych komputerach - tam, gdzie przetwarzanie tomogramu wymaga zwykle 60-90 minut, czas uruchomienia na superkomputerze MPI Raven jest zredukowany do 15 minut na tomogram. TomoTwin pozwala badaczom wybrać dziesiątki tomogramów w czasie, który jest potrzebny do ręcznego wybrania pojedynczego, zwiększając tym samym przepustowość danych i szybkość uśredniania w celu uzyskania lepszego obrazu. Oprogramowanie może obecnie lokalizować białka globularne lub kompleksy białkowe większe niż 150 kilodaltonów w komórkach; w przyszłości grupa Raunsera zamierza uwzględnić białka błonowe, białka filamentowe i białka o mniejszych rozmiarach.