AI wchodzi w ludzkie DNA. Evo 2 rozszyfruje tajemnice najbardziej skomplikowanych genomów

Agnieszka Serafinowicz

Dodane: 5 miesięcy temu

Pod koniec ubiegłego roku świat nauki żył premierą sztucznej inteligencji Evo, która potrafiła bezbłędnie analizować DNA bakterii i projektować dla nich nowe białka.

Sceptycy twierdzili, że system ten polegnie przy bardziej złożonych, ludzkich komórkach. Twórcy potraktowali to jednak jako wyzwanie. Właśnie udostępniono Evo 2 – potężny, otwartoźródłowy model AI wytrenowany na bilionach par zasad DNA wszystkich form życia.

Genetyka i sztuczna inteligencja to mariaż, który na naszych oczach zmienia medycynę i biologię. Zrozumienie zapisu DNA to jednak tylko połowa sukcesu. Prawdziwym wyzwaniem jest rozszyfrowanie, w jaki sposób z tego kodu powstają konkretne, funkcjonujące organizmy.

Dlaczego ludzkie DNA to koszmar dla algorytmów?

Pierwsza generacja modelu Evo odniosła sukces z prostej przyczyny: genomy bakterii są bardzo uporządkowane. Geny odpowiedzialne za pokrewne funkcje (np. trawienie konkretnego cukru) są zazwyczaj zgrupowane obok siebie i mają jeden, prosty układ sterujący. To sprawia, że są one stosunkowo łatwe do odczytania.

W przypadku tzw. eukariontów (czyli organizmów o komórkach zawierających jądro – od drożdży aż po człowieka) sprawa się komplikuje. Nasze geny są przerywane przez tzw. introny (fragmenty kodu, które niczego nie kodują), a ich systemy regulacyjne mogą być rozsiane po całym łańcuchu DNA, w setkach tysięcy par zasad stąd. Co gorsza, ogromna część ludzkiego genomu to tzw. „śmieciowe DNA” – nieaktywne wirusy i uszkodzone geny, które potęgują chaos informacyjny.

Wychwycenie wzorców w tym gąszczu, nawet przy użyciu specjalistycznego oprogramowania bioinformatycznego, jest obarczone dużym ryzykiem błędu (pamiętajmy, że ludzki genom to 3 miliardy par zasad!). I właśnie tutaj do gry wchodzą ogromne sieci neuronowe.

Trening na 8 bilionach znaków życia

Podstawą systemu Evo 2 jest sieć neuronowa o nazwie StripedHyena 2. Twórcy przeprowadzili jej dwuetapowy trening. Najpierw uczono ją rozpoznawania kluczowych cech na krótkich, 8-tysięcznych fragmentach, a następnie „karmiono” ją sekwencjami długimi na milion zasad, aby mogła dostrzec makro-wzorce.

Do szkolenia wykorzystano bazę OpenGenome2, zawierającą aż 8,8 biliona zasad DNA pochodzących ze wszystkich trzech domen życia (bakterii, archeonów i eukariontów). Co ważne, z powodów bezpieczeństwa badacze wykluczyli z bazy wirusy atakujące ludzi – istniała bowiem obawa, że system mógłby zostać wykorzystany do zaprojektowania nowych, groźnych patogenów.

Finalnie powstały dwie wersje modelu: mniejsza z 7 miliardami parametrów oraz potężna, flagowa wersja posiadająca aż 40 miliardów parametrów.

AI znajduje raka i rozpoznaje intruzy

Możliwości nowej sztucznej inteligencji są imponujące. Badacze udowodnili, że model potrafi bezbłędnie zlokalizować błędy i mutacje, nawet jeśli badacze zmienili tylko jedną, pojedynczą zasadę w całym łańcuchu. Evo 2 ocenia również wagę problemu – potrafi określić, czy dana mutacja jest nieszkodliwa, czy też drastycznie przerwie proces tworzenia białka.

W niektórych testach model przebijał dokładnością specjalistyczne oprogramowanie – świetnie radził sobie na przykład z analizą mutacji w genie BRCA2 (których obecność jest ściśle powiązana z ryzykiem wystąpienia raka piersi). System potrafił również samodzielnie zidentyfikować „pasożyty” na poziomie DNA (mobilne elementy genetyczne). Co najważniejsze – cały proces odbywa się bez utraty wydajności w analizie prostszych, bakteryjnych komórek.

Cały projekt Evo 2 (w tym parametry modelu, kod uczący oraz potężna baza danych OpenGenome2) został w pełni otwarty dla społeczności naukowej (Open Source). Badacze mają nadzieję, że udostępnienie tego potężnego narzędzia pozwoli w niedalekiej przyszłości nie tylko analizować komórki nowotworowe, ale być może również odkryć w naszym genomie funkcje i procesy, o których istnieniu do tej pory nie mieliśmy pojęcia.