Посмотрела видео с мероприятия CODEFEST от 2022 года про то, как состояла архтектура Дзена в 2022 году. Как все авторы предполагали: пишешь статью, подбираешь картинку, выкладываешь — а дальше всё решают алгоритмы. Но когда я посмотрела вебинар Андрея Зимовнова на CodeFest в конце 2022 года, стало ясно, что это не всё так просто.
На самом деле рекомендательная система Дзена — это не просто набор случайных статей в ленте. Это сложная структура, где каждое действие пользователя влияет на то, что он увидит дальше. И для автора это не просто интересно — это необходимо понимать, если хочется, чтобы статьи действительно читали.
Что такое рекомендательная система Дзена
Когда пользователь открывает Дзен, система должна подобрать 20 максимально релевантных карточек. При этом в системе хранится более 10 миллионов материалов, и каждую секунду происходят миллионы действий.
Чтобы выдать эти 20 карточек, алгоритм сначала отбирает 1000 кандидатов карточек, а затем выбирает из них лучшие. Причём делается это всего за 500 миллисекунд — и повторяется каждый раз при обновлении ленты.
Система работает в двух режимах:
- Exploration — когда пользователь новый или смотрит что-то не по теме, ему предлагают популярное и разнообразное.
- Exploitation — когда у пользователя уже есть история, система подбирает похожие материалы.
Как система выбирает контент
Сначала происходит «грубая» фильтрация: отбираются 1000 кандидатов. Используются три основных подхода:
- Item-item — анализ похожести материалов по взаимодействиям.
- Контентная близость — заголовки, описания, текст сравниваются с помощью нейросетей.
- Коллаборативная близость — алгоритм iALS строит матрицу «пользователь-контент».
Затем запускается второй этап — ранжирование. Система ранжирует оставшиеся карточки по десяткам факторов: вовлечённость, качество, свежесть, разнообразие. В итоге в ленту попадают только 20.
Как работает модель iALS
iALS — это «сердце» рекомендательной системы. Она строит матрицу взаимодействий, где «1» означает, что пользователь долго читал материал, а «0» — что не взаимодействовал или закрыл быстро.
Сама матрица состоит из 100 миллионов пользователей × 10 миллионов документов. Алгоритм пересчитывает эту матрицу каждые две недели, а вектора документов обновляются каждые 30 минут.
iALS помогает системе предсказывать, какие материалы могут быть интересны конкретному пользователю, даже если он на них ещё не наткнулся.
Что делает формула CatBoost
Когда система собрала 1000 подходящих материалов, в дело вступает CatBoost — модель, которая решает, какие из них окажутся в финальной двадцатке.
Формула учитывает:
- активность пользователя (дочитывания, лайки, отскоки),
- показатели документа (свежесть, длина, количество просмотров),
- поведение по теме (например, интерес к финансам),
- поведение по автору (читает ли статьи конкретного автора),
- бизнес-ограничения (например, нельзя показать подряд три карточки одного автора).
Это очень мощная и точная система. Её задача — не просто угадать, что интересно, а предсказать, с чем пользователь точно захочет взаимодействовать.
Поведение пользователя — главный сигнал для алгоритма
Один из ключевых моментов вебинара — влияние действий пользователя на ленту.
Любое взаимодействие — это сигнал: лайк, комментарий, сохранение, дочитывание. Даже скорость прокрутки важна — если ты «проскроллил» текст за 3 секунды, это сигнал, что статья тебе не интересна.
Более того, молчание — тоже сигнал. Если ты увидел статью в ленте, но не кликнул, система считает, что она тебе не подходит — и больше её не покажет.
Поэтому автору важно думать не только о содержании текста, но и об оформлении, заголовке, подаче — всём, что может зацепить за первые секунды.
Как нейросети помогают находить релевантный контент
Кроме матриц и статистики, в Дзене активно используются нейросети.
Например, система BERT анализирует заголовки, подзаголовки и описание статьи — и помогает алгоритму понять её смысл. Это особенно важно, если слова в статье не совпадают буквально с тем, что интересует пользователя, но суть — та же.
Ещё одна модель — triplet loss. Она обучается на парах: «релевантный–нерелевантный контент», и учится отличать один от другого. Это делает рекомендации точнее, даже для сложных и узких тем.
Нейросети работают и с видео, и с изображениями, и с текстом. А главное — они регулярно переобучаются, чтобы учитывать изменяющиеся интересы пользователей и появление новых тем.
Как автору использовать знания алгоритма
Вот что я поняла после вебинара и сразу применила к своему каналу:
- Делайте статьи, которые хочется дочитывать. Если пользователь уходит через 5 секунд — всё, алгоритм убирает публикацию из выдачи.
- Провоцируйте взаимодействие. Задавайте вопросы, побуждайте к комментарию, не бойтесь дизлайков — всё это сигналы.
- Пишите по теме. Если канал о финансах — пишите про финансы. Алгоритм любит стабильность.
- Публикуйтесь регулярно. Алгоритм обучается на вашей активности и истории.
- Работайте над заголовками и подзаголовками. Они — первый фильтр. Но не используйте кликбейт — за несоответствие алгоритм наказывает.
PS
Вот так работал алгоритм в 2022 году, работает ли сейчас также, то думаю частично да. Поняла, что это не просто «платформа с лентой», а огромная машина, которая буквально изучает поведение читателя в режиме реального времени, которая составляет цифровые зависимости контента.
Чтобы быть замеченным, важно не просто хорошо писать, а понимать, как устроена система и что в ней действительно работает, но полностью этой информации нет.
Если мои статьи для вас ценны и хочется сказать "спасибо" по-настоящему — буду рада вашей поддержке.
Поддержать мои статьи можно донатом
Спасибо, что вы со мной! Ваше внимание — уже самая большая ценность.