Исследователи AIVK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). С его поддержкою инженеры и ученые смогут делать лучше и совершенствовать рекомендательные алгоритмы, чтобы делать сервисы и продукты более персонализированными.
Датасет включает 40 миллиардов обезличенных уникальных взаимодействий 10 миллионов пользователей с 20 миллионами кратких видео за шесть месяцев (январь-июнь 2025) в том числе агрегированные лайки, дизлайки, шеры, продолжительность просмотра и контекст воспроизведения.
Вся информация представлены в формате числовых идентификаторов, что отлично обеспечивает полную конфиденциальность. Для каждого ролика предоставлен эмбеддинг (числовое описание содержимого), а для каждого пользователя предоставлены социально-демографические характеристики. Это позволяет исследователям строить модели, ориентированные и на поведенческие данные, и на контент.
«Сейчас не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения безошибочных рекомендательных алгоритмов важно учитывать не только очевидные реакции пользователей, но и многие дополнительные сигналы: продолжительность просмотра, контекст, содержимое. VK-LSVD - с помпой шаг к формированию исследовательской среды, в какой можно проверять гипотезы и строить безошибочные модели на основании реальных данных. Мы планируем делать лучше датасет, отныне спустя время проведем открытое соревнование для инженеров», – отметил Дмитрий Кондрашкин, директор по AI в VK.
Вместо разделенья на фиксированные размеры датасета, VK-LSVD позволяет настраивать выборку под задачи конкретного исследования. Инженеры могут в отдельности задать нужный объём данных, выбрать, как именно их отбирать - случайным образом или по популярности. Такой подход позволяет адаптировать датасет под реальные задачи и вычислительные мощности, которые есть у команд. И применять VK-LSVD как для академических проектов, так и для масштабных индустриальных экспериментов.
Фото: Unsplash