Держать совет: зачем бигтехи выкладывают в открытый доступ свои массивы данных

Выделите текст, чтобы комментировать.

Таким образом, инженеры и ученые могут совершенствовать рекомендательные алгоритмы. Любой востребованный впоследствии продукт не может появиться без R&D-части (исследований и разработок), указывают аналитики. По словам участников рынка, публикация open-source наборов данных крупными компаниями требует много ресурсов и происходит нечасто, но каждый такой случай — большое событие для специалистов, которые могут ускорить свои исследования

Видеосборник

Исследователи AI VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы, чтобы делать сервисы и продукты более персонализированными, пояснили Forbes в компании.

Датасет включает 40 млрд обезличенных уникальных взаимодействий 10 млн пользователей с 20 млн коротких видео за шесть месяцев (январь-июнь 2025 года), в том числе агрегированные лайки, дизлайки, шеры, продолжительность просмотра и контекст воспроизведения. Данные представлены в формате числовых идентификаторов, обеспечивая конфиденциальность. Для каждого ролика предоставлен эмбеддинг (числовое описание содержимого), а для каждого пользователя — социально-демографические характеристики. «Это позволяет исследователям строить модели, ориентированные и на поведенческие данные, и на контент», — говорят в VK.

Ценность этого датасета в том, что короткие видео — уникальный формат для рекомендательных алгоритмов. В отличие от музыки, подкастов или длинных видео, они не могут потребляться в фоновом режиме, а каждый показанный клип получает от пользователя некоторую реакцию. Даже если пользователь не оставит лайк, пропуск или досмотр видео уже считается обратной связью, указывают в компании. «Сейчас не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы: продолжительность просмотра, контекст, содержимое, — подчеркивает директор по AI в VK Дмитрий Кондрашкин. — VK-LSVD — важный шаг к формированию исследовательской среды, в которой можно проверять гипотезы и строить точные модели на основе реальных данных».

Короткие видео — перспективный домен для исследований, говорит руководитель команды рекомендаций «Авито» Михаил Каменщиков. «Каждое взаимодействие пользователя несет качественный сигнал о его предпочтениях, в отличие от фонового потребления музыки или подкастов. Кроме того, короткие видео демонстрируют стремительный рост популярности и появляются в самых разных сервисах, что делает задачи персонализации в этой области актуальными, — поясняет он. — Высокая частота взаимодействий и разнообразие контента позволяют исследовать алгоритмы рекомендаций в условиях интенсивного пользовательского поведения, а мультимодальная природа данных открывает возможности для изучения влияния визуального и аудиоконтента на предпочтения пользователей».

Эксперт по применению генеративного ИИ в бизнесе и СЕО университета «Зерокодер» Кирилл Пшинник называет открытие датасета VK-LSVD «заметным шагом в развитии рекомендательных систем». Формат коротких видео уникален тем, что каждая рекомендация немедленно вызывает реакцию пользователя: просмотр, пропуск, лайк или шэр, продолжает он. «Такой плотный поток сигналов позволяет строить и тестировать алгоритмы, максимально приближенные к реальному поведению. 40 млрд взаимодействий, 10 млн пользователей, 20 млн роликов, и при этом доступ к эмбеддингам и социально-демографическим признакам дают исследователям редкую глубину данных», — рассуждает Пшинник.

«Большие наборы нужны всегда»

Крупные технологические компании редко публикуют промышленные датасеты такого масштаба, обращают внимание эксперты. Алгоритмы, показывающие отличные результаты на небольших или старых датасетах при валидации, часто существенно проигрывают при развертывании на реальных, современных и масштабных потоках данных, размышляет PhD, руководитель научной группы «Технологии персонализации» Института AIRI Евгений Фролов. «Поэтому новые большие наборы нужны всегда», — категоричен он. Большие открытые датасеты с реальными данными по рекомендательным системам, по словам ученого, появляются нечасто, так как их публикация требует много ресурсов.

Особенно ценно, когда такие датасеты, помимо базовых взаимодействий, содержат контекстную информацию, говорит Фролов: «Это нечастое, но важное дополнение. Наличие контекста (например, тип устройства, геолокация, формат взаимодействия) дает более богатое описание потребительского поведения. Это, в свою очередь, позволяет разрабатывать усовершенствованные модели, повышать точность предсказаний, а также выявлять новые сценарии для рекомендаций, улучшая пользовательский опыт».

Доступ к информации реального сервиса с миллионами пользователей представляет «качественно новый уровень для проведения исследований», уверен Каменщиков, добавляя, что большинство ученых тестируют современные алгоритмы либо на устаревших датасетах вроде MovieLens (которому более 20 лет), либо на собственных закрытых датасетах. 40 млрд взаимодействий на порядки превышают объемы стандартных академических датасетов, замечает он: «Это позволяет исследователям работать с паттернами поведения, которые проявляются только на больших объемах данных и недоступны при тестировании на ограниченных выборках. Любой востребованный IT-продукт требует серьезной R&D-составляющей, и будущие прорывы будут основаны на исследованиях, которые проводятся сегодня».

Часть тренда

Появление открытых датасетов — часть глобального тренда, когда бигтехи делятся данными ради ускорения исследований. Ранее «Яндекс» выкладывал Yambda для музыки (полная версия содержит 5 млрд данных, две уменьшенных — 500 млн и 50 млн), Spotify — Million Playlist Dataset, Google — YouTube-8M, один из самых популярных видеосервисов в Китае Kuaishou — KuaiRec, приводит примеры Кирилл Пшинник. По его мнению, такие проекты формируют стандарты индустрии и становятся бенчмарками для университетов и бизнеса: «Если VK сможет развивать датасет и поддерживать открытые соревнования, это повысит уровень всей экосистемы RecSys и укрепит позиции России в глобальном AI-исследовании».

Развитие рекомендательных алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты, замечает руководитель направления по развитию качества персонализации в «Яндексе» Александр Плошкин. При этом open-source-датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют, согласен он с коллегами. «Это создает разрыв между академическими исследованиями и потребностями бизнеса. Публикация больших открытых датасетов помогает решить эту проблему, подобно тому, как появление в 2010 году датасета ImageNet (набор с миллионами размеченных изображений) дало мощный толчок развитию компьютерного зрения», — говорит Плошкин.

Сейчас в открытом доступе мало качественных и современных датасетов для развития рекомендательных систем, констатирует руководитель рекомендательных систем в Т-Банке Марина Ананьева. «Поэтому вклад в open-source здесь уже стал своего рода индустриальным трендом и позволяет стимулировать дальнейшие исследования в области, — продолжает она. — Мы одни из первых среди российских компаний начали выкладывать свои модели и датасеты в открытый доступ и планируем увеличивать свой вклад в open-source в том числе в области рекомендательных систем».

При этом крупнейшие игроки рынка — такие, как Meta* — обладают в разы большим объемом подобных данных, но, разумеется, не делятся ими, ведь это ключевой актив для монетизации, обращает внимание Кирилл Пшинник. Таргетинг Facebook (принадлежит Meta, которая признана в России экстремистской и запрещена) строится, по его словам, именно на знании профилей и реакций пользователей, что позволяет рекламодателям находить наиболее релевантную аудиторию. «Аналогичным образом и Google предоставляет лишь ограниченные выборки, VK тоже выпускает только «усеченные» данные. Тем не менее, факт существования этих массивов информации сам по себе огромен: было бы странно ожидать, что компании откроют доступ к главному объекту своей коммерциализации», — заключает эксперт.

*признана в России экстремистской и запрещена