Российские исследователи из Яндекса разработали и открыли для всех крупный набор данных, предназначенный для обучения рекомендательных систем искусственного интеллекта (ИИ). Этот датасет под названием Yambda построен на основе обезличенных данных «Яндекс музыки» и содержит до 5 миллиардов элементов.
Основная задача публикации такого большого и подробного набора данных — ускорить развитие алгоритмов, которые помогают подбирать пользователям подходящий контент в онлайн-сервисах. Ранее существовавшие открытые датасеты были либо слишком малы, либо устарели, что ограничивало возможности ученых и разработчиков.
В состав Yambda входят агрегированные данные о прослушиваниях, лайках, дизлайках, а также некоторые характеристики музыкальных композиций. Все персональные данные пользователей полностью анонимизированы и представлены лишь в виде числовых идентификаторов, чтобы сохранить конфиденциальность.
Для удобства и гибкости работы с датасетом созданы три версии — от 50 миллионов до 5 миллиардов записей. Это позволяет разработчикам выбирать подходящий объем данных в зависимости от задачи и мощности оборудования.