Таким образом, инженеры и ученые могут совершенствовать рекомендательные алгоритмы. Любой востребованный впоследствии продукт не может появиться без R&D-части (исследований и разработок), указывают аналитики. По словам участников рынка, публикация open-source наборов данных крупными компаниями требует много ресурсов и происходит нечасто, но каждый такой случай — большое событие для специалистов, которые могут ускорить свои исследования

Видеосборник

Исследователи AI VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы, чтобы делать сервисы и продукты более персонализированными, пояснили Forbes в компании.

Датасет включает 40 млрд обезличенных уникальных взаимодействий 10 млн пользователей с 20 млн коротких видео за шесть месяцев (январь-июнь 2025 года), в том числе агрегированные лайки, дизлайки, шеры, продолжительность просмотра и контекст воспроизведения. Данные представлены в формате числовых идентификаторов, обеспечивая конфиденциальность. Для каждого ролика предоставлен эмбеддинг (числовое описание содержимого), а для каждого пользователя — социально-демографические характеристики. «Это позволяет исследователям строить модели, ориентированные и на поведенческие данные, и на контент», — говорят в VK.

Ценность этого датасета в том, что короткие видео — уникальный формат для рекомендательных алгоритмов. В отличие от музыки, подкастов или длинных видео, они не могут потребляться в фоновом режиме, а каждый показанный клип получает от пользователя некоторую реакцию. Даже если пользователь не оставит лайк, пропуск или досмотр видео уже считается обратной связью, указывают в компании. «Сейчас не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы: продолжительность просмотра, контекст, содержимое, — подчеркивает директор по AI в VK Дмитрий Кондрашкин. — VK-LSVD — важный шаг к формированию исследовательской среды, в которой можно проверять гипотезы и строить точные модели на основе реальных данных».

Короткие видео — перспективный домен для исследований, говорит руководитель команды рекомендаций «Авито» Михаил Каменщиков. «Каждое взаимодействие пользователя несет качественный сигнал о его предпочтениях, в отличие от фонового потребления музыки или подкастов. Кроме того, короткие видео демонстрируют стремительный рост популярности и появляются в самых разных сервисах, что делает задачи персонализации в этой области актуальными, — поясняет он. — Высокая частота взаимодействий и разнообразие контента позволяют исследовать алгоритмы рекомендаций в условиях интенсивного пользовательского поведения, а мультимодальная природа данных открывает возможности для изучения влияния визуального и аудиоконтента на предпочтения пользователей».

Эксперт по применению генеративного ИИ в бизнесе и СЕО университета «Зерокодер» Кирилл Пшинник называет открытие датасета VK-LSVD «заметным шагом в развитии рекомендательных систем». Формат коротких видео уникален тем, что каждая рекомендация немедленно вызывает реакцию пользователя: просмотр, пропуск, лайк или шэр, продолжает он. «Такой плотный поток сигналов позволяет строить и тестировать алгоритмы, максимально приближенные к реальному поведению. 40 млрд взаимодействий, 10 млн пользователей, 20 млн роликов, и при этом доступ к эмбеддингам и социально-демографическим признакам дают исследователям редкую глубину данных», — рассуждает Пшинник.

«Большие наборы нужны всегда»

Крупные технологические компании редко публикуют промышленные датасеты такого масштаба, обращают внимание эксперты. Алгоритмы, показывающие отличные результаты на небольших или старых датасетах при валидации, часто существенно проигрывают при развертывании на реальных, современных и масштабных потоках данных, размышляет PhD, руководитель научной группы «Технологии персонализации» Института AIRI Евгений Фролов. «Поэтому новые большие наборы нужны всегда», — категоричен он. Большие открытые датасеты с реальными данными по рекомендательным системам, по словам ученого, появляются нечасто, так как их публикация требует много ресурсов.

Особенно ценно, когда такие датасеты, помимо базовых взаимодействий, содержат контекстную информацию, говорит Фролов: «Это нечастое, но важное дополнение. Наличие контекста (например, тип устройства, геолокация, формат взаимодействия) дает более богатое описание потребительского поведения. Это, в свою очередь, позволяет разрабатывать усовершенствованные модели, повышать точность предсказаний, а также выявлять новые сценарии для рекомендаций, улучшая пользовательский опыт».

Доступ к информации реального сервиса с миллионами пользователей представляет «качественно новый уровень для проведения исследований», уверен Каменщиков, добавляя, что большинство ученых тестируют современные алгоритмы либо на устаревших датасетах вроде MovieLens (которому более 20 лет), либо на собственных закрытых датасетах. 40 млрд взаимодействий на порядки превышают объемы стандартных академических датасетов, замечает он: «Это позволяет исследователям работать с паттернами поведения, которые проявляются только на больших объемах данных и недоступны при тестировании на ограниченных выборках. Любой востребованный IT-продукт требует серьезной R&D-составляющей, и будущие прорывы будут основаны на исследованиях, которые проводятся сегодня».

Часть тренда

Появление открытых датасетов — часть глобального тренда, когда бигтехи делятся данными ради ускорения исследований. Ранее «Яндекс» выкладывал Yambda для музыки (полная версия содержит 5 млрд данных, две уменьшенных — 500 млн и 50 млн), Spotify — Million Playlist Dataset, Google — YouTube-8M, один из самых популярных видеосервисов в Китае Kuaishou — KuaiRec, приводит примеры Кирилл Пшинник. По его мнению, такие проекты формируют стандарты индустрии и становятся бенчмарками для университетов и бизнеса: «Если VK сможет развивать датасет и поддерживать открытые соревнования, это повысит уровень всей экосистемы RecSys и укрепит позиции России в глобальном AI-исследовании».

Развитие рекомендательных алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты, замечает руководитель направления по развитию качества персонализации в «Яндексе» Александр Плошкин. При этом open-source-датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют, согласен он с коллегами. «Это создает разрыв между академическими исследованиями и потребностями бизнеса. Публикация больших открытых датасетов помогает решить эту проблему, подобно тому, как появление в 2010 году датасета ImageNet (набор с миллионами размеченных изображений) дало мощный толчок развитию компьютерного зрения», — говорит Плошкин.

Сейчас в открытом доступе мало качественных и современных датасетов для развития рекомендательных систем, констатирует руководитель рекомендательных систем в Т-Банке Марина Ананьева. «Поэтому вклад в open-source здесь уже стал своего рода индустриальным трендом и позволяет стимулировать дальнейшие исследования в области, — продолжает она. — Мы одни из первых среди российских компаний начали выкладывать свои модели и датасеты в открытый доступ и планируем увеличивать свой вклад в open-source в том числе в области рекомендательных систем».

При этом крупнейшие игроки рынка — такие, как Meta*  — обладают в разы большим объемом подобных данных, но, разумеется, не делятся ими, ведь это ключевой актив для монетизации, обращает внимание Кирилл Пшинник. Таргетинг Facebook (принадлежит Meta, которая признана в России экстремистской и запрещена) строится, по его словам, именно на знании профилей и реакций пользователей, что позволяет рекламодателям находить наиболее релевантную аудиторию. «Аналогичным образом и Google предоставляет лишь ограниченные выборки, VK тоже выпускает только «усеченные» данные. Тем не менее, факт существования этих массивов информации сам по себе огромен: было бы странно ожидать, что компании откроют доступ к главному объекту своей коммерциализации», — заключает эксперт.

*признана в России экстремистской и запрещена

Соболева Галина
Автор: Роман Рожков, Редакция Forbes
Последние публикации автора


Редакция портала: i@tala.ru
Создайте канал и публикуйте статьи и новости бесплатно!
Соболева Галина
Андрей Злобин
19.09.2025
На бывшем заводе Toyota в Санкт-Петербурге будут выпускать автомобили Senat
Выпуск автомобилей на бывшем заводе Toyota в Шушарах под Санкт-Петербургом перезапустят в ...
Соболева Галина
София Плетнева
12.10.2025
Греф спрогнозировал ослабление курса рубля к концу года
Глава Сбербанка Герман Греф ожидает ослабления курса рубля к концу года до 85-90 рублей за...
Соболева Галина
Ангелина Кречетова
23.09.2025
Крупные банки России стали активно обнулять лимиты по кредитным картам
Россияне начали массово жаловаться на обнуление банками лимитов по кредитным картам.
Соболева Галина
Наталья Пацева, Мария Чуманова
22.09.2025
Скрытые риски: о чем стоит помнить реальным собственникам и номинальным директорам
Доверенные лица владельцев бизнеса — зачастую друзья, члены семьи и сотрудники — нередко с...
Соболева Галина
Редакция Forbes
9:28
Самый тонкий iPhone и наушники с переводчиком: Apple представила новинки
Apple провела очередную презентацию новых продуктов. На этот раз компания представила новы...
Соболева Галина
Татьяна Дроздова
09.09.2025
Потребительницы и лидеры: как женщины двигают серебряную экономику
Население планеты стареет, а значит, продукты и услуги, связанные с возрастными изменениям...
Соболева Галина
Арпине Асатрян
9:30
Forbes назвал 400 богатейших американцев 2025 года
Состояние 400 богатейших американцев достигло рекордных $6,6 трлн, за последние 12 месяцев...
Соболева Галина
Елена Калинина
11.09.2025
Си Цзиньпин и Путин поговорили о жизни до 150 лет: насколько это возможно
После публикации разговора Владимира Путина с председателем КНР Си Цзиньпином о продлении ...
Соболева Галина
София Плетнева
12.10.2025
Греф спрогнозировал ослабление курса рубля к концу года
Глава Сбербанка Герман Греф ожидает ослабления курса рубля к концу года до 85-90 рублей за...
Кондауров Олег
Кондауров Олег
23.08.2025
«Делимобиль» собирается сохранить размер автопарка около уровня 2024 года
Компания «Делимобиль» планирует сохранить размер своего автопарка по итогам 2025 года на у...