Найти тему

Вы еще не подумали, а они уже угадали: как устроены рекомендательные системы

Оглавление

Вот вы о чем-то поговорили утром, а в обед вас догнала реклама по теме. Было же наверняка. Или поискали что-то, а потом за вами реклама таскается по всем страницам. Лайкнули… понятно, в общем.

Если интересно, как это работает – листайте: объясняю очень просто.

Как система собирает данные

Представьте, что вы ищете в интернет-магазине синий смартфон примерно за 20–25 тысяч рублей. При поиске вы используете много критериев (цвет, бренд, цена). После того, как вы нашли/не нашли/купили/не купили нужный товар, искусственный интеллект начинает угадывать, какие вещи вам нравятся – исходя из вот этих признаков, которые вы сами же и задавали.

Вы смотрите определенные фильмы, читаете определенных авторов, покупаете вещи определенных брендов, – и алгоритм запоминает абсолютно все.

Но теперь, «встречая» вас где-нибудь в поиске или на какой-то площадке, он не просто механически выдает что-то с тем же признаком, как делал это в интернет-магазине, а опирается еще и на на ваше местоположение, время суток, день недели или возраст.

На все, что ему о вас известно. Вернее, на все, что вы сообщили ему сами.

А вот то, что ваши данные утекают кому попало – вина не самих нейросеток (они очень полезны, читайте дальше!), а отдельных платформ и компаний. Например, благодаря Chrome ваши данные получают минимум 52 компании. И это уже не гуд.

Не драматизируйте: система не знает о вас ничего из того, что вы ей сами не сообщили
Не драматизируйте: система не знает о вас ничего из того, что вы ей сами не сообщили

Как алгоритмы понимают, «то» это или «не то»

… или не совсем «то». Вот этот спектр называется релевантность. Релевантно – значит, «подходит под запрос» и «именно то, что я хотел» (или захотел, когда увидел). Не очень релевантно – значит, «почти то, что нужно», «сойдет» и так далее.

Но ведь машины работают на основе математики. А «не совсем то» – это не очень-то математическая величина.

Тут в дело вступают признаки, с которых мы начали.

Поисковик хотел бы угадать, что вы ищете, но он не знает ваших намерений, и опирается на все, что вы «рассказали» ему о себе раньше. И вот чем больше признаков «про вас» (в его представлении!) совпало, тем релевантнее.

Например, вы пишете «погода» в поисковой строке, и он показывает погоду где? – правильно: в городе, где вы сейчас находитесь. Или в том городе, по которому вы чаще всего задавали поиск – это уже зависит от кучи других таких же признаков.

Стереотипы – главные помощники алгоритмов

Есть и признаки, о которых вы не сообщали алгоритмам – но они предполагают что-то на основе неких общечеловеческих установок. Иначе говоря, стереотипов, – и ничего плохого в этом слове нет, это просто общие тенденции, чаще всего правильные и полезные для релевантного поиска.

Например, в день смерти какой-нибудь суперзвезды вы забиваете в поисковик ее имя – и первое, что видите, это некрологи. Вчера, позавчера, месяц назад про этого человека искало информацию примерно одинаковое количество людей – а сегодня, когда все заполонили новости о его смерти и другие люди ищут «причину», «фото с места трагедии», «последние данные» и прочее, алгоритм предполагает, что и вы – один из них. Ну то есть шанс, что вы вдруг решили именно сегодня и сейчас что-то почитать про этого актера-писателя-композитора, вообще не зная о его кончине, крайне мал.

Значит, вас интересует главный инфоповод, который интересует вообще всех.

Так что вчера запросу с именем была релевантна статья на Вики, а сегодня – уже некрологи. Sic transit gloria mundi.

Выработка таких вот стереотипов – первичная задача машинного обучения.

Коллаборативная фильтрация (это когда нас всех по полочкам расставили)

Дааа, мы все уникальны. Но все-таки два типичных профессора института больше похожи между собой, чем каждый из них – на питерского хипстера или каюра из Хабаровского края.

Всех их интересует разное. Всем им с большей долей вероятности лучше предложить что-то, что предпочитают похожие на них людей.

Такая фильтрация нашла отличное применение в интернет-магазинах. Все же видели «Похожие товары» и «Вместе с этим покупают»? Это две абсолютно разные категории, конечно – для ноутов в первой покажут ноуты, во второй – мыши и зарядники.

Но ноуты будут примерно в той же ценовой категории, что и выбранный, заметьте, а зарядники будут подходить к ноутам.

Иногда алгоритмы ошибаются, потому что у них очень маленькая выборка. Вчера я заказывал на одном известном маркетплейсе книгу воспоминаний Витте (тот самый, который министр финансов и еще всякого в Российской империи). В категории «С этим товаром также заказывают» лежал комикс о Человеке-пауке. Ну, понятно, кто-то просто купил два этих издания вместе, а алгоритм не учел кучу других признаков, которые надо было бы учесть – как минимум, что это очень разные жанры.

У меня, кстати, в том же заказе была книга «III-е отделение при Николае I». Так что, может быть, кому-то и ее предложат вместо Человека-паука. Как-то оно все-таки… порелевантнее.

Иногда рекомендации бессильны, и приходится поискать что-то... руками
Иногда рекомендации бессильны, и приходится поискать что-то... руками

Выводы? Их три

Во-первых, каждым кликом вы сами рассказываете алгоритмам все больше и больше о себе.

Во-вторых, никто за вами не следит. Просто мы все действительно очень похожи, как ни обидно об этом думать.

В-третьих, ничего плохого в этом нет: благодаря тому, что нейросети узнают нас все лучше, они могут предлагать нам самое интересное и подходящее. Бизнес старается что-то продать нам под этим соусом? Ну да. Так он продавал бы и без алгоритмов – а так мы хотя бы получаем что-то действительно желанное.