214 подписчиков

📌 Будущее рекомендательных систем: как большие языковые модели изменили правила игры

23 марта 202523 мар 2025

4 мин

В последние годы рекомендательные системы и поиск переживают настоящую революцию. Если раньше рекомендательные сервисы полагались на простые идентификаторы товаров и контентные фильтры, то сейчас на первый план выходят большие языковые модели (LLM) и мультимодальные подходы. Почему это важно и какие интересные технологические прорывы произошли за последнее время, попробуем разобраться. 🧩 Почему классические подходы перестали работать? Классические рекомендательные системы часто не справляются с двумя основными проблемами: 📉 Холодный старт — когда нужно рекомендовать новый товар, о котором еще нет информации о поведении пользователей.

🐜 Длинный хвост — множество редко запрашиваемых товаров, которые сложно точно рекомендовать. Решение этих проблем пришло с адаптацией больших языковых моделей (LLM) и мультимодальных подходов, которые позволяют учитывать гораздо больше информации и строить точные рекомендации даже при недостатке поведенческих данных. 🔮 Как это реализовано на практике?

🧩 Почему классические подходы перестали работать?

Классические рекомендательные системы часто не справляются с двумя основными проблемами:

📉 Холодный старт — когда нужно рекомендовать новый товар, о котором еще нет информации о поведении пользователей.
🐜 Длинный хвост — множество редко запрашиваемых товаров, которые сложно точно рекомендовать.

Решение этих проблем пришло с адаптацией больших языковых моделей (LLM) и мультимодальных подходов, которые позволяют учитывать гораздо больше информации и строить точные рекомендации даже при недостатке поведенческих данных.

🔮 Как это реализовано на практике?

🔥 Semantic IDs от YouTube:
Команда YouTube заменила традиционные идентификаторы товаров на «семантические ID», полученные из видеоконтента. Они используют Transformer (Video-BERT) для генерации глубоких (2048-мерных) представлений, которые затем сжимают через специальный автоэнкодер RQ-VAE до компактных и осмысленных идентификаторов. Это решение позволило значительно улучшить рекомендации в ситуациях холодного старта и длинного хвоста. При этом оказалось, что использовать плотные (dense) вектора напрямую хуже, чем даже случайные хэши — из-за того, что модели сильно полагаются на запоминание из таблиц идентификаторов.

📱 Мультимодальные рекомендации в Kuaishou:
Соцсеть Kuaishou пошла еще дальше и применила мультимодальный подход (визуальный, текстовый и аудио-контент), объединяя их через K-means-кластеризацию. Эти кластеры затем обрабатываются специальным энкодером и превращаются в поведенческие эмбеддинги, которые лучше соответствуют реальным интересам пользователей. В результате пользователи получили на 3-4% больше взаимодействий с рекомендованным контентом.

⚡️ Совмещение табличных данных и LLM у Huawei:
Huawei представила подход FLIP, в котором табличные данные (ID пользователя, товара) переводятся в текстовые шаблоны и используются совместно с текстовыми данными для совместного обучения. Это позволило улучшить CTR (коэффициент кликов) и значительно повысить качество рекомендаций.

🌉 beeFormer и мост от семантики к поведению:
Команда beeFormer предложила подход, когда языковая модель (sentence Transformer) обучается на текстах товаров, но обновляет веса, учитывая не просто семантическую близость, а реальные взаимодействия пользователей. Это позволило приблизить семантическое пространство к реальным интересам пользователей и значительно повысить точность рекомендаций.

🎯 Какие технические хитрости сейчас используют?

Несколько интересных технологических приёмов, используемых сегодня:

🚧 Обучение через Sliding Window (Netflix):
Netflix тренирует модели на «окнах» данных о поведении пользователей, что позволяет учесть их долгосрочные интересы, не теряя при этом скорость и не перегружая память.

🧬 Self-Auxiliary Distillation (Google):
Google улучшает свои модели, заставляя их учиться одновременно на реальных метках и на собственных «предсказаниях», таким образом стабилизируя процесс обучения и избегая переобучения на слабых данных.

⚙️ Low-Rank Adapters (Alibaba):
Alibaba использует подход LoRA для точной настройки моделей под отдельные домены с минимальными вычислительными затратами, достигая значительного прироста в CTR и конверсиях.

🏗️ Унифицированные архитектуры (LinkedIn, Spotify, Etsy):
Крупные компании стремятся создать единую модель, способную одновременно решать задачи поиска и рекомендации. Например, LinkedIn разработал 360Brew — модель на основе Mixtral-8x22B, которая заменяет десятки отдельных моделей, а Etsy объединила графовые, текстовые и контентные эмбеддинги в одной архитектуре, увеличив конверсии почти на 6%.

🚀 Какое будущее ждет рекомендательные системы?

Очевидно, что эпоха простых моделей и жестко заданных эмбеддингов прошла. Будущее — за гибкими моделями, которые «понимают» контент, умеют взаимодействовать с мультимодальными данными и адаптироваться под нужды пользователя в режиме реального времени. Ключом к этому служат LLM, которые постепенно стирают грань между традиционным поиском и рекомендациями, предоставляя всё более персонализированный опыт.

✨ Личное мнение:
Автор убежден, что компании, которые уже сейчас инвестируют в объединение мультимодальных и языковых подходов, получат огромное конкурентное преимущество. Уникальность опыта пользователей и высокая точность рекомендаций будут иметь решающее значение в борьбе за внимание аудитории.

🔗 Ссылки на источники и новости:

Основная статья: Improving Recommendation Systems & Search in the Age of LLMs
Semantic IDs от YouTube: Semantic IDs (arXiv)
Мультимодальный подход Kuaishou: M3CSR (ACM)
Подход FLIP от Huawei: FLIP (arXiv)
Подход beeFormer: beeFormer (arXiv)
Подход Google Self-Auxiliary Distillation: Google SAD (ACM)
360Brew от LinkedIn: 360Brew (arXiv)

🌟 Заключение:
Технологический прогресс не стоит на месте, и уже сегодня большие языковые модели меняют лицо рекомендательных систем и поиска. Компании, способные быстро адаптироваться к новым технологиям, однозначно получат стратегическое преимущество в ближайшем будущем.