Создана система ИИ для поиска новых химических реакций в архивах данных
МОСКВА, 20 марта. /ТАСС/. Российские химики создали уникальную поисковую систему на базе машинного обучения, способную анализировать огромный массив данных высокоразрешающей масс-спектрометрии и выявлять в них ранее неизвестные химические реакции. Разработка ускорит поиск новых соединений и снизит затраты на проведение исследований, сообщила пресс-служба "Сколтеха" (входит в группу ВЭБ.РФ).
"В основе нашей работы лежит инновационный алгоритм, сочетающий машинное обучение и анализ распределения сигналов в масс-спектрах, что позволило значительно снизить количество ложных срабатываний при идентификации химических соединений. Новый поисковый алгоритм успешно проверил исторические данные по реакции Мизороки-Хека и выявил не только уже известные, но и совершенно новые химические трансформации", - пояснил академик РАН Валентин Анаников, чьи слова приводит пресс-служба "Сколтеха".
Как отмечают ученые, в последние годы в химии и в других науках начал накапливаться огромный объем экспериментальных данных, которые крайне сложно обработать в ручном режиме. По текущим оценкам исследователей, до 95% накопленных данных остаются неизученными, что приводит к потере потенциально важных открытий. Это побуждает ученых создавать новые подходы, в том числе системы ИИ, для анализа этой информации.
Российские химики приспособили системы машинного обучения для анализа данных, которые экспериментаторы получают во время химических опытов при помощи высокоразрешающей масс-спектрометрии. В ее рамках ученые особым образом ионизируют составы, возникшие во время проведенных ими экспериментов, и пропускают их через специальный набор магнитов. Характер взаимодействия этих цепочек атомов с магнитами позволяет определить доли присутствующих в этих составах молекул, а также измерить их заряд, массу и другие параметры.
Каждый подобный замер порождает гигабайты данных, анализ которых вручную займет многие годы. Для ускорения анализа при помощи машинного обучения исследователи подготовили набор сгенерированных на компьютере данных высокоразрешающей масс-спектрометрии и использовали его для обучения созданной ими системы ИИ. Она способна анализировать терабайты подобных данных и искать в них ранее неизвестные и интересующие ученых молекулы и порождающие их реакции.
Для проверки работы этой системы российские исследователи проанализировали при ее помощи большой набор данных, полученных при изучении реакции Мизороки-Хека, активно применяемой для производства гербицидов, солнцезащитных средств и лекарств. Система ИИ позволила академику Ананикову и его коллегам быстро проанализировать 8 терабайтов данных и найти в них ранее неизвестные реакции, которые не были открыты за полвека экспериментов. Схожие открытия, как надеются химики, можно будет сделать при анализе других наборов спектрометрических данных.