Выделите текст, чтобы комментировать.

Таким образом, инженеры и ученые могут совершенствовать рекомендательные алгоритмы. Любой востребованный впоследствии продукт не может появиться без R&D-части (исследований и разработок), указывают аналитики. По словам участников рынка, публикация open-source наборов данных крупными компаниями требует много ресурсов и происходит нечасто, но каждый такой случай — большое событие для специалистов, которые могут ускорить свои исследования

Видеосборник

Исследователи AI VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы, чтобы делать сервисы и продукты более персонализированными, пояснили Forbes в компании.

Датасет включает 40 млрд обезличенных уникальных взаимодействий 10 млн пользователей с 20 млн коротких видео за шесть месяцев (январь-июнь 2025 года), в том числе агрегированные лайки, дизлайки, шеры, продолжительность просмотра и контекст воспроизведения. Данные представлены в формате числовых идентификаторов, обеспечивая конфиденциальность. Для каждого ролика предоставлен эмбеддинг (числовое описание содержимого), а для каждого пользователя — социально-демографические характеристики. «Это позволяет исследователям строить модели, ориентированные и на поведенческие данные, и на контент», — говорят в VK.

Ценность этого датасета в том, что короткие видео — уникальный формат для рекомендательных алгоритмов. В отличие от музыки, подкастов или длинных видео, они не могут потребляться в фоновом режиме, а каждый показанный клип получает от пользователя некоторую реакцию. Даже если пользователь не оставит лайк, пропуск или досмотр видео уже считается обратной связью, указывают в компании. «Сейчас не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы: продолжительность просмотра, контекст, содержимое, — подчеркивает директор по AI в VK Дмитрий Кондрашкин. — VK-LSVD — важный шаг к формированию исследовательской среды, в которой можно проверять гипотезы и строить точные модели на основе реальных данных».

Короткие видео — перспективный домен для исследований, говорит руководитель команды рекомендаций «Авито» Михаил Каменщиков. «Каждое взаимодействие пользователя несет качественный сигнал о его предпочтениях, в отличие от фонового потребления музыки или подкастов. Кроме того, короткие видео демонстрируют стремительный рост популярности и появляются в самых разных сервисах, что делает задачи персонализации в этой области актуальными, — поясняет он. — Высокая частота взаимодействий и разнообразие контента позволяют исследовать алгоритмы рекомендаций в условиях интенсивного пользовательского поведения, а мультимодальная природа данных открывает возможности для изучения влияния визуального и аудиоконтента на предпочтения пользователей».

Эксперт по применению генеративного ИИ в бизнесе и СЕО университета «Зерокодер» Кирилл Пшинник называет открытие датасета VK-LSVD «заметным шагом в развитии рекомендательных систем». Формат коротких видео уникален тем, что каждая рекомендация немедленно вызывает реакцию пользователя: просмотр, пропуск, лайк или шэр, продолжает он. «Такой плотный поток сигналов позволяет строить и тестировать алгоритмы, максимально приближенные к реальному поведению. 40 млрд взаимодействий, 10 млн пользователей, 20 млн роликов, и при этом доступ к эмбеддингам и социально-демографическим признакам дают исследователям редкую глубину данных», — рассуждает Пшинник.

«Большие наборы нужны всегда»

Крупные технологические компании редко публикуют промышленные датасеты такого масштаба, обращают внимание эксперты. Алгоритмы, показывающие отличные результаты на небольших или старых датасетах при валидации, часто существенно проигрывают при развертывании на реальных, современных и масштабных потоках данных, размышляет PhD, руководитель научной группы «Технологии персонализации» Института AIRI Евгений Фролов. «Поэтому новые большие наборы нужны всегда», — категоричен он. Большие открытые датасеты с реальными данными по рекомендательным системам, по словам ученого, появляются нечасто, так как их публикация требует много ресурсов.

Особенно ценно, когда такие датасеты, помимо базовых взаимодействий, содержат контекстную информацию, говорит Фролов: «Это нечастое, но важное дополнение. Наличие контекста (например, тип устройства, геолокация, формат взаимодействия) дает более богатое описание потребительского поведения. Это, в свою очередь, позволяет разрабатывать усовершенствованные модели, повышать точность предсказаний, а также выявлять новые сценарии для рекомендаций, улучшая пользовательский опыт».

Доступ к информации реального сервиса с миллионами пользователей представляет «качественно новый уровень для проведения исследований», уверен Каменщиков, добавляя, что большинство ученых тестируют современные алгоритмы либо на устаревших датасетах вроде MovieLens (которому более 20 лет), либо на собственных закрытых датасетах. 40 млрд взаимодействий на порядки превышают объемы стандартных академических датасетов, замечает он: «Это позволяет исследователям работать с паттернами поведения, которые проявляются только на больших объемах данных и недоступны при тестировании на ограниченных выборках. Любой востребованный IT-продукт требует серьезной R&D-составляющей, и будущие прорывы будут основаны на исследованиях, которые проводятся сегодня».

Часть тренда

Появление открытых датасетов — часть глобального тренда, когда бигтехи делятся данными ради ускорения исследований. Ранее «Яндекс» выкладывал Yambda для музыки (полная версия содержит 5 млрд данных, две уменьшенных — 500 млн и 50 млн), Spotify — Million Playlist Dataset, Google — YouTube-8M, один из самых популярных видеосервисов в Китае Kuaishou — KuaiRec, приводит примеры Кирилл Пшинник. По его мнению, такие проекты формируют стандарты индустрии и становятся бенчмарками для университетов и бизнеса: «Если VK сможет развивать датасет и поддерживать открытые соревнования, это повысит уровень всей экосистемы RecSys и укрепит позиции России в глобальном AI-исследовании».

Развитие рекомендательных алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты, замечает руководитель направления по развитию качества персонализации в «Яндексе» Александр Плошкин. При этом open-source-датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют, согласен он с коллегами. «Это создает разрыв между академическими исследованиями и потребностями бизнеса. Публикация больших открытых датасетов помогает решить эту проблему, подобно тому, как появление в 2010 году датасета ImageNet (набор с миллионами размеченных изображений) дало мощный толчок развитию компьютерного зрения», — говорит Плошкин.

Сейчас в открытом доступе мало качественных и современных датасетов для развития рекомендательных систем, констатирует руководитель рекомендательных систем в Т-Банке Марина Ананьева. «Поэтому вклад в open-source здесь уже стал своего рода индустриальным трендом и позволяет стимулировать дальнейшие исследования в области, — продолжает она. — Мы одни из первых среди российских компаний начали выкладывать свои модели и датасеты в открытый доступ и планируем увеличивать свой вклад в open-source в том числе в области рекомендательных систем».

При этом крупнейшие игроки рынка — такие, как Meta*  — обладают в разы большим объемом подобных данных, но, разумеется, не делятся ими, ведь это ключевой актив для монетизации, обращает внимание Кирилл Пшинник. Таргетинг Facebook (принадлежит Meta, которая признана в России экстремистской и запрещена) строится, по его словам, именно на знании профилей и реакций пользователей, что позволяет рекламодателям находить наиболее релевантную аудиторию. «Аналогичным образом и Google предоставляет лишь ограниченные выборки, VK тоже выпускает только «усеченные» данные. Тем не менее, факт существования этих массивов информации сам по себе огромен: было бы странно ожидать, что компании откроют доступ к главному объекту своей коммерциализации», — заключает эксперт.

*признана в России экстремистской и запрещена

Соболева Галина
Автор: Роман Рожков, Редакция Forbes
Последние публикации автора
Комментируйте


Кадровый дефицит 2026: почему сотрудники уходят и что реально помогает удерживать команду

Повышение зарплат, бонусы и корпоративы уже не удерживают сотрудников. Российские компании ищут новые подходы к снижению текучки и развитию команд

Дефицит кадров для большинства компаний стал обычным явлением. При этом работодатели сталкиваются не только с общим ростом увольнений, но и с тем, что все больше сотрудников уходят из компаний, проработав меньше года. Эти данные показывают, что текучка кадров переросла из разовых случаев в системную проблему.Что мы делаем не так, пытаясь удержать сотруд... Читать 3 мин.

Кадровый дефицит 2026: почему сотрудники уходят и что реально помогает удерживать команду
sansaradevelopment
Sansara Development
05.01.2026
Оценка рисков: как выбрать застройщика в Индонезии на Бали и не потерять деньги
Для инвестора, который рассчитывает купить недвижимость на Бали как актив.
Соболева Галина
Мария Егорикова, коммерческий директор «ОВЛ-Энерго»
26.01.2026
Продажа начинается после первого НЕТ
Лет десять назад мне встретилось замечательное выражение: «Продажа начинается после первог...
Соболева Галина
Арпине Асатрян
11:10
T2 начнет возвращать абонентам процент от потраченного интернет-трафика
T2 впервые на телеком-рынке запускает механику возврата процента от потраченного интернет-...
Соболева Галина
Алексей Березенков
12.02.2026
Альтернативные стратегии ценовой конкуренции
Предлагаем интервью с Алексеем Березенковым, руководителем проекта «Правильный Поставщик» ...
Оля
Наталья Иванова
01.12.2025
Какие документы можно хранить в архиве по законодательству РФ
Архивному хранению подлежат документы, представляющие историческую, научную, социальную, э...
Сергеева Анастасия Сергеевна
Ксения Шуст
19.02.2026
Как перестать быть «просто бьюти-мастером» и построить систему: мой путь длиной в 14 лет
Сегодня я предприниматель и основатель группы проектов в профессиональной бьюти-индустрии...
Кривопуст Константин
Кривопуст Константин
24.01.2026
Адвокат Константин Кривопуст: есть ли у Полины Лурье шанс взыскать судебные издержки с Ларисы Долиной
Миллионы за адвокатов: есть ли у Полины Лурье шанс взыскать судебные издержки с Ларисы Дол...
Анна
Ирина Фионова, директор по стратегическому развитию RX CODE
26.01.2026
Customer Engagement Points (CEP) в фармацевтическом маркетинге: как использовать для эффективных коммуникаций с разными ЦА
CEP в фарммаркетинге: как реализовать точечные коммуникации с ЦА.
Ан Марина
Марина Кананцева
05.02.2026
Белый ввоз, как новая норма ведения международного бизнеса
Международная торговля в 2026 году остается мощным инструментом развития бизнеса. Однако, ...
Соболева Галина
Евгений Мищенко
12.02.2026
5 стратегий защиты бизнеса от Евгения Мищенко: не вступайте в ценовые войны
Евгений Мищенко — Президент E-Commerce & Digital Marketing Association (ECDMA), экспер...