В работе нейронов мозга увидели аналог алгоритма машинного обучения

Ученые Гарвардского университета (США), Нагойского университета и Медицинской школы Университета Кэйо (Япония) доказали сходство между обучением животных и типом машинного обучения, называемым обучением временной разнице (англ. temporal difference, TD). В статье, опубликованной в журнале Nature Neuroscience, исследователи продемонстрировали, что дофаминергические нейроны реализуют биологический аналог функции ошибки в алгоритме TD.

Фото: Lenta.ru

Обучение временной разнице — это тип обучения, при котором сначала создается модель, предсказывающая наступление какого-либо события в будущем, а потом эта модель корректируется с течением времени. Например, модель, которая предсказывает погоду в субботу по погоде в понедельник, корректируется с учетом погоды в пятницу, когда можно сделать более точный прогноз на субботу. Важную роль в этом алгоритме, как и в обычном обучении, играет функция ошибки, которая сообщает о разнице между ожиданием и реальностью, однако в алгоритме TD ошибка может вычисляться для каждого момента времени между первым стимулом и вознаграждением.

В конце XX века нейробиологи увидели, что у обучающихся животных частота возбуждения дофаминовых нейронов, расположенных в таких областях мозга, как вентральная область покрышки и черная субстанция, имитирует функцию ошибки в алгоритме TD. В начале обучения животное не связывает стимул с последующим вознаграждением в виде вкусной еды, поэтому при получении пищи дофаминовые клетки резко увеличивают частоту возбуждения. Со временем это усиление начинает происходить все раньше и раньше, пока не достигает стимула, надежно предсказывающего вознаграждение. Когда животное обучено, вознаграждение уже не вызывает усиленную работу нейронов. Однако многие исследования не смогли подтвердить, что дофаминовые сигналы действительно воспроизводят алгоритм TD.