Найти в Дзене
Каморка Программиста

Как работают рекомендации на Ютубе, Кинопоиске и других площадках

Народ, всем привет. Если вы хотя бы раз пытались вести свой блог или снимать обучающие (или е обучающие) видео на какой-нибудь площадке, то наверняка задавались вопросам – как сделать так, чтобы мой контент показывали люди. Российские сервисы, вроде Дзен, VK-видео, Кинопоиска и подобных, а также платформы вроде YouTube, Netflix и TikTok (один из самых популярных в нашей стране и в мире) строят свои бизнес-модели вокруг того, чтобы удерживать пользователя как можно дольше. А это возможно только благодаря рекомендательным алгоритмам, сложным системам, которые решают, что именно вам показать в следующую секунду. Несмотря на внешнюю простоту («видео просто нравится»), за этими решениями стоит многослойная архитектура машинного обучения, нейросетей и поведенческой аналитики. Хотя точные детали являются коммерческой тайной, и я вам о них е расскажу само-собой (я их и не знаю, а если кто-то вам говорит что знает, то он нагло… ошибается) многое известно из научных публикаций, новостей и просто

Народ, всем привет. Если вы хотя бы раз пытались вести свой блог или снимать обучающие (или е обучающие) видео на какой-нибудь площадке, то наверняка задавались вопросам – как сделать так, чтобы мой контент показывали люди. Российские сервисы, вроде Дзен, VK-видео, Кинопоиска и подобных, а также платформы вроде YouTube, Netflix и TikTok (один из самых популярных в нашей стране и в мире) строят свои бизнес-модели вокруг того, чтобы удерживать пользователя как можно дольше.

А это возможно только благодаря рекомендательным алгоритмам, сложным системам, которые решают, что именно вам показать в следующую секунду. Несмотря на внешнюю простоту («видео просто нравится»), за этими решениями стоит многослойная архитектура машинного обучения, нейросетей и поведенческой аналитики. Хотя точные детали являются коммерческой тайной, и я вам о них е расскажу само-собой (я их и не знаю, а если кто-то вам говорит что знает, то он нагло… ошибается) многое известно из научных публикаций, новостей и просто практики.

Давайте сегодня попробуем разобраться, как работают рекомендации на этих популярных сервисах. При этом я возьму именно ютуб или тик-кто просто потому, что с ними более понятно, да и рекомендации работают 2праивльно, в отличии от остальных. Но не будем о грустном, принципы везде одинаковые, по крайней мере те, к которым нужно стремиться.

-2

И начнем с YouTube, ну потому что это некий гигант с миллиардами часов контента. Алгоритм рекомендаций на ютубе эволюционировал от простых метрик, вроде количества просмотров и лайков, к сложной системе на основе глубокого обучения. Современный алгоритм состоит из двух ключевых этапов: заинтересованность и ранжирование.

  • на первом этапе система выбирает из всех доступных видео несколько сотен, которые потенциально могут заинтересовать пользователя. Это делается на основе истории просмотров, тематики, лайков, подписок и даже таких мелочей, как скорость прокрутки ленты.
  • далее включается второй этап — ранжирование. Система оценивает каждое из выбранных видео по десяткам признаков: CTR (click-through rate), удержание (как долго пользователь смотрел видео), реакция (лайки, дизлайки, комментарии), а также «внутренние» параметры вроде вероятности завершения просмотра. Всё это складывается в единый скоринговый показатель, который и определяет порядок выдачи.
-3

Важно отметить, что ютуб активно борется с созданием «замкнутых пузырей» и токсичных рекомендаций. В последние годы в систему встроены механизмы проверки «граничного» контента (видео на грани нарушений), а также элементы рандомизации и диверсификации выдачи. Однако, как и в любой системе машинного обучения, всё зависит от исходных данных и, если пользователь смотрит однотипный контент, алгоритм будет усиливать этот выбор.

Кинопоиск или тот-же Netflix подходит к рекомендациям иначе, поскольку они работают в рамках ограниченного (хотя и огромного) каталога контента. У них нет миллиарда видео, как у ютуба или VK, но есть десятки тысяч фильмов и сериалов, каждый из которых стоит денег. Поэтому главная задача алгоритма — не только угадать, что пользователь хочет посмотреть, но и эффективно распределить внимание между собственными оригинальными проектами и сторонним контентом.

Алгоритмы используют гибридную модель, сочетающую коллаборативную фильтрацию (сравнение предпочтений похожих пользователей) и контентную фильтрацию (анализ характеристик самого контента: жанр, актёры, длительность, рейтинг).

-4
Если Вам нравятся наши статьи, и вы хотите отблагодарить автора (на развитие канала), нам будет очень приятно!

Такие сервисы учитывает сотни факторов: время суток, тип устройства, день недели, даже погоду в регионе (в идеале). Один и тот же пользователь может получить разные рекомендации утром в будний день и вечером в выходной. Большую роль играют изображения. Так, нетфликс тестирует десятки обложек для одного и того же фильма и показывает ту, которая с наибольшей вероятностью привлечёт внимание. Также платформа отслеживает не только просмотры, но и «преднамеренность»: было ли видео выбрано через поиск, найдено в категории или кликнуто из рекомендаций. Всё это влияет на персональный рейтинг.

Интересно, что подобные сервисы часто рекомендует не то, что вы любите, а то, что вы готовы посмотреть прямо сейчас. Это тонкое различие, ведь пользователь может предпочитать сложное кино, но в конце рабочего дня ему может подойти лёгкая комедия. Поэтому, крупные международные сервисы обучают модели с учётом эмоционального контекста и привычек пользователя, а также проводит A/B тесты на миллионах аккаунтов одновременно, чтобы понять, какие сочетания лучше работают.

Что насчет TikTok? Ну это, пожалуй, самый инновационный игрок в сфере рекомендаций. Его феноменальная популярность объясняется именно мощным алгоритмом, способным за считанные минуты «понять» нового пользователя и начать показывать почти идеально релевантный контент. В отличие от того же ютуба, где важны подписки и история, тик-ток строит ленту для вас практически с нуля. Уже первые взаимодействия (что вы досмотрели, что пролистнули, что лайкнули или сохранили) становятся сигналами для быстрой адаптации. Система следит за каждым свайпом, сколько времени вы провели на видео, замедлили ли прокрутку, пересматривали ли видео, нажимали ли на звук или автора.

-5

Тик-ток использует каскадную архитектуру рекомендаций, это когда сначала модели грубой фильтрации отбирают потенциально интересные ролики, затем более точные модели на основе нейросетей ранжируют их. При этом тик-ток очень активно использует обучение с подкреплением. Алгоритм «экспериментирует» с подачей видео, чтобы найти идеальные правила вовлечения.

В отличие от других платформ, тик-ток не боится показывать малопопулярный контент: видео с 10 просмотрами может оказаться в ленте миллиона человек, если оно показывает хорошие метрики вовлечения. Это делает платформу невероятно привлекательной для создателей, ведь шансы «взорваться» есть у всех.

Еще стоит сказать про интересную вещь: тик-ток активно анализирует визуальные, звуковые и текстовые элементы контента. Система знает, что видео содержит, ну, скажем, пляж, танец, путешесвтие или еду, благодаря компьютерному зрению и распознаванию речи. И даже если пользователь ничего не ищет и не подписывается, алгоритм формирует профиль интересов на основе вот-таких поведенческих микросигналов. Это объясняет, почему TikTok так быстро и точно «понимает» вкусы — зачастую быстрее, чем сам пользователь.

-6