Создана система ИИ, находящая неизвестные белки в данных с масс-спектрометров

МОСКВА, 31 марта. /ТАСС/. Европейские молекулярные биологи и математики создали нейросеть-трансформер, способную анализировать "сырые данные" с масс-спектрометров, обнаруживать в них следы ранее неизвестных белковых молекул и раскрывать одномерную структуру их молекул. Об этом сообщила пресс-служба Датского технического университета (DTU).

"Существующие системы и базы данных сильно ограничены в том, какие задачи они могут решать. Во-первых, они включают в себя сведения далеко не обо всех белках, из-за чего ученым нужно знать, какие конкретные наборы баз подходят для их исследований. Во-вторых, ни одна из этих коллекций не позволит вам обнаружить и идентифицировать те белки, которые еще не были открыты", - пояснил доцент DTU Тимоти Дженкинс, чьи слова приводит пресс-служба вуза.

Как отмечают исследователи, сейчас ученые активно используют масс-спектрометры для изучения белкового состава различных биоматериалов и поиска ранее неизвестных пептидов. Эти устройства представляют собой установки, которые особым образом ионизируют молекулы белков и их фрагментов и определяют их массу и примерный химический состав. Получение подобных сведений требует очень длительной и часто ручной обработки данных для избавления от всех ложных сигналов.

Для решения этой проблемы европейские молекулярные биологи и математики разработали нейросеть InstaNovo, которая способна анализировать первичные данные с масс-спектрометров и обнаруживать в них наборы сигналов, которые связаны с ранее неизвестными пептидами и другими последовательностями аминокислот. Для ее разработки ученые подготовили набор данных по спектру более 700 тыс. вариаций белков, включающих в себя различные ферменты и антитела.

Для повышения эффективности работы этой системы ИИ исследователи модифицировали архитектуру данной нейросети таким образом, что она пыталась определить структуру всего белка сразу, а не вычисляла наиболее вероятный следующий блок в цепочке, как это обычно делают ИИ-трансформеры. Это значительным образом повысило точность алгоритма и позволило ему превзойти в эффективности и скорости работы все существующие аналоги.

Для проверки работы этой системы ученые проанализировали при помощи данного алгоритма данные с масс-спектрометров, полученные при изучении культур микробов, обитающих в незаживающих ранах, а также различных клеточных рецепторов. И в том, и в другом случае нейросеть InstaNovo помогла выявить сотни ранее неизвестных пептидов, которые не были выявлены в изученных образцах другими алгоритмами, что в перспективе позволит применять ее для поиска неизвестных молекул и изучения роли белков в различных процессах в живых клетках.