Рекомендательные системы появились в интернете достаточно давно, около 20 лет назад. Все уже сталкивались с ними в интернете. Первый пример — рекомендательные системы фильмов. Есть еще рекомендательные сервисы музыки, товаров и контента. Проблема таких систем - создание информационных пузырей. Рекомендательные системы приводят, как удобную альтернативу поисковым алгоритмам, так как они позволяют обнаружить объекты, которые не могут быть найдены последними.
Вот, допустим, Яндекс.Метрика различает следующие рекомендательные системы:
- Мир тесен.
- Яндекс.Дзен.
- Flipboard.
- Google Discover.
- Opera Personal News.
- Pulse (Mail.ru).
- Sony News Suite.
- Toutiao.
Выделяют два основных типа фильтраций:
Content-based
- Пользователю рекомендуются объекты, похожие на те, которые этот пользователь уже употребил.
- Похожести оцениваются по признакам содержимого объектов.
- Сильная зависимость от предметной области, полезность рекомендаций ограничена.
Коллаборативная фильтрация (Collaborative Filtering)
- Для рекомендации используется история оценок как самого пользователя, так и других пользователей.
- Более универсальный подход, часто дает лучший результат.
- Есть свои проблемы (например, холодный старт).
Не многие знают, что есть подобные системы и у поисковиков. На самом деле выдача у нас разная, хотя и запросы мы делаем одинаковые. Яндекс еще в 2009 году внедрил метод машинного обучения — Матрикснет. Важная особенность этого метода — в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования. Матрикснет — это метод машинного обучения, с помощью которого строится формула ранжирования Яндекса.
Главное при использовании подобных систем что мы попадем в замкнутый круг: лайк - рекомендация - лайк. Очень сложно найти что-то новое в таком информационном поле.
Говоря научным языком, информационный пузырь – это совокупность средств персонализации контента в интернете. Google или Yandex выдают в поиске не совсем то, что вы ищете. Вы получите скорее то, что они считают наиболее подходящим для вас – в соответствии с вашей ранней поисковой историей.
«Фейсбук» или «Вконтакте» сейчас не показывают ленту в хронологическом порядке. Они сортируют публикации в зависимости от ваших предпочтений. По тому же принципу они показывают рекомендуемый контент.
Все это достигается путем отслеживания ваших действий, причем как внутри самих сервисов, так и за их пределами. Лайки, репосты, просмотры, клики, поисковые запросы, открытые вкладки, поведение на внешних сайтах – все это мазки к вашему цифровому «портрету».
Информационный пузырь – это как личный телевизор, предоставляющий вам ограниченный набор сообщений о мире. Мы имеем господство технологического детерминизма в сознании обывателя, а это очень плохо.
Пузырь фильтров это также концепт, который утверждает что любая рекомендательная система рано или поздно замыкается, поскольку накопленный объем данных для рекомендации будет перевешивать любую свежую, пусть и даже более релевантную, информацию.
Рекомендации Ютуба через год использования показывают одни и те же ролики. А свежий канал в подписке вам почти никогда в этой выборке показан не будет. Такие вот дела.