А вы за нас еще и лечить будете? Роботы в белых халатах
Разработчики из Mail.Ru Group, Insilico Medicine и МФТИ сегодня объявили, что применили нейросеть для моделирования новых лекарственных препаратов.Машинное обучение помогает быстрее, дешевле и лучше «собирать» молекулярные структуры из известных и описанных в базах элементов (молекул), которые впоследствии становятся основой новых действующих веществ. Forbes публикует материал о том, как искусственный интеллект приходит в медицину. Согласно исследованию IBM, 80% данных в области медицины не структурированы, поэтому они не видимы для большинства современных информационных систем. Объем медицинских данных достиг 150 эксобайтов, а при сохранении текущей тенденции их генерации, объем достигнет порядка зетта- и иоттабайтов. Если эти данные записать на DVD-диски, то их хватит, чтобы проложить дорогу от Земли до Марса. Извлечь полезные закономерности из этих астрономических масштабов информации можно с помощью Big Data методов и искусственного интеллекта (ИИ). Элементарно, Watson! Наверное, наиболее известным на сегодня случаем применения ИИ в медицине является проект IBM Watson Health. История коммерческого использования Watson началась в феврале 2013 году, когда IBM и Memorial Sloan Kettering Cancer Center (MSKCC) в Нью-Йорке начали использовать Watson в качестве системы поддержки принятия решений для диагностики и назначения лечения в онкологии. Проект изначально был предназначен для диагностики и лечения рака груди и рака легких, но затем был расширен на случаи рака прямой кишки, простаты, поджелудочной железы, печени, а также меланомы и лимфомы. Идея проекта заключается в следующем: через MSKCC ежегодно проходит 30 тыс. пациентов. История болезни каждого пациента сравнивается с историями других пациентов с похожим анамнезом, а также со всеми известными медицинскими публикациями на предмет совпадения тех или иных признаков болезни. В результате пациент получает персонализированную диагностику и лечение, а когнитивные функции Watson продолжают улучшаться с каждым новым пациентом, потому что обучение (deep learning) идет непрерывно. Анализ 200 млн цифровых документов занимает 3 секунды. В будущем планируется добавить функцию анализа генома каждого пациента, что позволит подбирать лечение, основанное на ДНК-профиле. В 2016 году было объявлено о начале использования Watson в одном из современнейших медицинских центров Индии (Manipal Comprehensive Cancer Centre). Использование Watson совместно с Robotic Assisted Surgery (хирург использует аппарат типа широкоизвестного робота da Vinci) позволит выйти на новый качественный уровень лечения и диагностики рака. Кроме того, клиника откроет онлайн-консультации для пациентов других клиник с онкодиагнозами. На анализ истории болезни с помощью бинома онколог Watson можно будет записаться с помощью смс в течение 72 часов. Для Индии, где на одного врача приходится 1700 пациентов согласно Worldbank, это особенно актуально. Онкология и не только Онкологические заболевания являются не только одними из самых безжалостных смертельных заболеваний, но и требуют колоссальных затрат на лечение этой категории больных. К 2020 году ожидается увеличение затрат на лечение онкологических больных в США на 27% (со $124 млрд до $157 млрд). Компания Roche также активно работает над повышением точности диагностики рака по гистологическим снимкам. В июне 2016 года представитель Roche делал презентацию на саммите по Apache Spark (фреймворк для распределенной обработки Big Data) в Сан-Франциско, где были продемонстрированы хорошие результаты проводимого исследования по пространственному анализу гистологических снимков. Работа основана на методе DBSCAN (density-based spatial clastering of application with noise), а вычисления проводятся над Big Data (анализ 5,3 трлн комбинаций) с помощью Apache Spark. В будущем исследователи планируют добавить в проект информацию о геноме пациента. Использование ИИ в медицине является абсолютно оправданным. Например, совместное исследование Beth Israel Deaconess Medical Center, Harvard Medical School и Massachusetts Institute of Technology, проведенное в 2016 году и посвященное диагностике метастатического рака груди, показало, что ошибка диагностики нейросетью составляет 7,5%, специалистом-онкологом 3,5%, а при их взаимодействии всего 0,5%, т.е. количественное улучшение составляет 85%. Есть проекты, касающиеся и других заболеваний. Так, корпорация Intel принимает участие в проекте по исследованию болезни Паркинсона, от которой страдает каждый сотый житель Земли старше 60 лет. Существующее лечение к выздоровлению не приводит, а позволяет лишь снять симптомы (тремор, замедленность, депрессии, нарушения сна и т.д.). Проблема в том, что отслеживать динамику таких пациентов очень сложно: визиты к врачу имеют место каждые 3-6 месяцев, а критериев для оценки изменений довольно мало. На помощь пришли Big Data, IoT и облачные технологии: пациентам раздали «умные» часы, которые снимают данные 24 часа в сутки, обработка batch-аналитики реализована на базе Apache Spark. Методы машинного обучения обрабатывают эти потоки и выдают персонализированные рекомендации пациентам по планированию физической активности и приему препаратов. Исследование проводится на двух выборках пациентов в США и Голландии. В России также существует закон «Об основах охраны здоровья граждан в РФ» (323-ФЗ), регламентирующий применение высокотехнологичной медицины. Так в ст. 34 идет речь о применении «…клеточных технологий, роботизированной техники, информационных технологий и методов генной инженерии, разработанных на основе достижений медицинской науки и смежных отраслей науки и техники». В 2015 году IBM и Первый Онкологический Научно-Консультационный Центр заключили меморандум о взаимопонимании. Однако в марте 2016 года гендиректор IBM в России и СНГ Андрей Филатов назвал законодательное и нормативное регулирование в области здравоохранения основной проблемой для промышленной эксплуатации IBM Watson в России. Лечить или не лечить К сожалению, не все идет так гладко, как хотелось бы. Есть ряд достаточно серьезных проблем на пути применения ИИ (особенно многослойных нейросетей) в медицине. Проблема 1: для обучения нейросети нужны огромные массивы данных. Чтобы на выходе нейросети получить результаты с приемлемой степенью точности, на вход надо подать значительный объем данных (объем данных варьируется в каждом конкретном случае). Так для обучения системы распознавания речи в Google Android используется более 10 тыс. часов речевых фрагментов. Для обучения систем распознавания образов широко используется база данных ImageNet, содержащая более 14 млн. изображений с тегами принадлежности тому или иному классу. Согласно статистике Американского ракового общества (American Cancer Society), наиболее распространенной формой рака в 2016 году в США был рак груди (более 240 000 выявленных случаев). Для обучения нейросети такого количества данных мало. Если взять более редкие формы рака, то там количество выявленных случаев в десятки раз меньше (например, 53 тыс. рака поджелудочной железы, 62 тыс. случаев лейкемии, 64 тыс. случаев рака щитовидной железы и т.д.). Очевидно, что такой статистики не достаточно, нужные для обучения миллионы случаев будут собираться десятилетиями. И это при том, что смертность при некоторых редких формах рака может достигать 80%. Обнадеживает то, что активно развиваются смешанные методы машинного обучения (т.н. semi-supervised learning), требующие в сотни раз меньших данных на входе нейросети. Проблема 2: вопрос конфиденциальности персональных медицинских данных. Доступ к персональной информации, касающейся здоровья, -- вопрос довольно чувствительный, и часто регламентируется различными нормативно-правовыми актами. В США таковым является HIPAA (Health Insurance Portability and Accountability Act), принятый в 1996 году. Возникает много вопросов о том, где, как будут храниться эти данные, а также кто будет иметь к ним доступ. Кто будет финансировать на практике разработку, внедрение и поддержку подобного рода систем? Последние скандалы с различными взломами, утечками и хакерскими атаками, к сожалению, не добавляют отптимизма. Проблема 3: этический вопрос использования ИИ в целом и в медицине в частности. Представим ситуацию, когда система поддержки принятия медицинских решений, «не видит» шансов для продолжения лечения/поддержания жизни пациента и рекомендует наиболее «оптимальное» решение: эвтаназию. Здесь мы получаем сложнейшую морально-этическую проблему с всеми вытекающими из нее правовыми вопросами. Проблема 4: человеческий страх. Очевидно, что пациенту (пока) проще доверить провести диагностику/операцию человеку нежели компьютеру (не говоря уже про автономных роботов), пусть и с высокоразвитым ИИ. Не все психологические барьеры легко (и быстро) преодолимы. Что дальше? Одна из решаемых задач во Вселенной Big Data относится к проблеме персонализации и, очевидно, что самым достойным ее применением является сфера здравоохранения. Тренд очевиден: крупнейшие мировые медицинские центры (особенно в США) заинтересованы в коммерческом использовании ИИ. Персонализированное лечение, основанное на ДНК-профиле пациента, является безусловным прорывом, особенно, для такой сложнейшей области как онкология. Однако, как видно из вышеприведенных 4-х проблем, лишь одна является полностью научно-технической. Так что дело за нами.