Прогнозирование эпидемий, безработицы и другие исследования c помощью данных Google
Поисковые запросы для прогнозирования эпидемий В начале 2016 года отовсюду доносились новости о вирусе Зика. Всемирная организация здравоохранения даже разработала стратегический механизм реагирования — вирус наделал шума. Свидетельства этого до сих пор хранятся в сервисе Google Trends, отслеживающем динамику поисковых запросов. Ученые из Китая и Северной Америки воспользовались этим сервисом, чтобы построить динамическую модель распространения инфекции, которую вызывает вирус Зика. Исследователи взяли статистику запросов в Google за девять месяцев и сопоставили ее с данными о заболеваемости. Чем больше врачи регистрировали новых подтвержденных и предполагаемых случаев инфицирования, тем чаще люди искали информацию о вирусе Зика. Обнаружив эту связь, ученые дополнили прогностическую модель поисковой статистикой, смогли ее усовершенствовать и заключили, что информация из Google позволяет быстрее понять, как обстоят дела во время эпидемии. Ранее другие ученые успешно применяли статистику поисковых запросов для прогнозирования вспышек гриппа и лихорадки Денге. Прогнозирование безработицы по статистике поиска С помощью запросов в Google можно прогнозировать не только распространение инфекционных болезней — поисковая статистика годится и для прогнозирования изменений на рынке труда. Как написали итальянские ученые в статье, опубликованной в International Journal of Forecasting, штука эта важная: ожидания влияют на решения инвесторов и законодателей. Итальянцы обработали поисковые запросы американцев, но упомянули, что похожие исследования проводили и у них на родине, и в Германии, Израиле и Франции. Запросы касались работы. Как оказалось, построенная на их основе модель по точности превосходит те, что опираются на более традиционные показатели, например, ожидания потребителей и работодателей. Разгадка проста: люди начинают искать новую работу еще до того, как уволились или потеряли старую, но находят ее не сразу. Оттого прогнозы по безработице на 3–12 месяцев в случае с данными Google всегда оказывались лучше, а особенно хорошо модель показала себя в переломные моменты вроде начала мирового финансового кризиса 2008–2009 годов. Авторы ничего не сказали, насколько их модель применима для других стран, но раз их коллеги тоже добились успеха, то, вероятно, данные Google можно использовать для прогнозирования безработицы где угодно. "Гуглмобили" для экологического мониторинга Грязный воздух — большая проблема современных городов, которая осложняется тем, что распространенные методы мониторинга среды недостаточно точны. В статье, опубликованной в журнале Environmental Science & Technology, исследователи привели следующие данные: более чем на половине городских территорий в США на миллион жителей приходится всего по две-пять станций, следящих за состоянием воздуха. В Азии, Африке и других развивающихся регионах дела обстоят еще хуже. Ученые придумали альтернативу: оборудовали датчиками два автомобиля Google, которые разъезжают по городам и делают панорамные снимки (это благодаря им в "Картах" работает режим "Просмотр улиц"). Исследование проходило в калифорнийском Окленде и длилось год. Поскольку "гуглмобили" время от времени проезжают в одних и тех же местах, удалось получить данные о том, как меняется состояние воздуха, с точностью 30 м — на несколько порядков выше, чем у обычных станций наблюдения, содержание которых обходится в сопоставимые суммы. Автомобили Google использовали просто для удобства — подошли бы и такси или общественный транспорт. По подсчетам исследователей, всего 500 машин достаточно, чтобы покрыть территорию, где живут более 100 млн американцев. То же самое можно проделать и в других городах мира. Перепись населения по фотографиям машин Ежегодно власти США тратят более $1 млрд на сбор демографической статистики, при этом доступна она становится подчас спустя более чем пять лет. Команда из Стэнфордского, Мичиганского университетов и других американских вузов предложили более дешевую и быструю альтернативу — обработку снимков, сделанных "гуглмобилями", с помощью компьютерного зрения. Исследователи взяли 50 млн фотографий из 200 городов и прогнали их через специально обученную нейронную сеть. Эта сеть распознала 22 млн автомобилей, или 8% всех машин в стране, в том числе тип кузова, марку и год выпуска — всего более 2600 параметров. Эту информацию сопоставили с местами, где были сделаны снимки. Это позволило рассчитать доход, этническое происхождение, уровень образования и политические предпочтения жителей конкретных районов. Закономерности обнаружились любопытные. Так, если за 15 минут в камеру гуглмобиля попало больше седанов, чем пикапов, то с вероятностью 88% на следующих президентских выборах в городе победит кандидат от Демократической партии. Авторы исследования заключили, что их разработка способна дополнить обычные методы демографов, которые привыкли ходить от двери до двери. Но точность предсказаний нейронных сетей заставляет задуматься, нужны ли вообще будут эти дедовские методы в будущем. *** Исследования, о которых шла речь, далеко не уникальные в своем роде, а "Просмотр улиц" на "Картах", поиск и Google Trends — важные, но далеко не все сервисы компании-юбиляра. С одной стороны, возможности для изучения и понимания мира, открывающиеся благодаря Google, захватывают дух. В то же время ее сила настораживает. Если маленькие независимые команды ученых, используя лишь толику открытых данных, способны находить настолько удивительные закономерности и точные прогнозы, то что же может сама Google? Спустя 20 лет после основания это больше не просто поисковик — продукты компании повсюду. Часто мы даже не догадываемся, что пользуемся ими, но подозреваем, что при всем желании не можем от них отказаться. Могущество Google поистине велико, и главный вопрос в этой ситуации — способны ли мы в случае чего ее одернуть. Марат Кузаев