Вот вы о чем-то поговорили утром, а в обед вас догнала реклама по теме. Было же наверняка. Или поискали что-то, а потом за вами реклама таскается по всем страницам. Лайкнули… понятно, в общем.
Если интересно, как это работает – листайте: объясняю очень просто.
Как система собирает данные
Представьте, что вы ищете в интернет-магазине синий смартфон примерно за 20–25 тысяч рублей. При поиске вы используете много критериев (цвет, бренд, цена). После того, как вы нашли/не нашли/купили/не купили нужный товар, искусственный интеллект начинает угадывать, какие вещи вам нравятся – исходя из вот этих признаков, которые вы сами же и задавали.
Вы смотрите определенные фильмы, читаете определенных авторов, покупаете вещи определенных брендов, – и алгоритм запоминает абсолютно все.
Но теперь, «встречая» вас где-нибудь в поиске или на какой-то площадке, он не просто механически выдает что-то с тем же признаком, как делал это в интернет-магазине, а опирается еще и на на ваше местоположение, время суток, день недели или возраст.
На все, что ему о вас известно. Вернее, на все, что вы сообщили ему сами.
А вот то, что ваши данные утекают кому попало – вина не самих нейросеток (они очень полезны, читайте дальше!), а отдельных платформ и компаний. Например, благодаря Chrome ваши данные получают минимум 52 компании. И это уже не гуд.
Как алгоритмы понимают, «то» это или «не то»
… или не совсем «то». Вот этот спектр называется релевантность. Релевантно – значит, «подходит под запрос» и «именно то, что я хотел» (или захотел, когда увидел). Не очень релевантно – значит, «почти то, что нужно», «сойдет» и так далее.
Но ведь машины работают на основе математики. А «не совсем то» – это не очень-то математическая величина.
Тут в дело вступают признаки, с которых мы начали.
Поисковик хотел бы угадать, что вы ищете, но он не знает ваших намерений, и опирается на все, что вы «рассказали» ему о себе раньше. И вот чем больше признаков «про вас» (в его представлении!) совпало, тем релевантнее.
Например, вы пишете «погода» в поисковой строке, и он показывает погоду где? – правильно: в городе, где вы сейчас находитесь. Или в том городе, по которому вы чаще всего задавали поиск – это уже зависит от кучи других таких же признаков.
Стереотипы – главные помощники алгоритмов
Есть и признаки, о которых вы не сообщали алгоритмам – но они предполагают что-то на основе неких общечеловеческих установок. Иначе говоря, стереотипов, – и ничего плохого в этом слове нет, это просто общие тенденции, чаще всего правильные и полезные для релевантного поиска.
Например, в день смерти какой-нибудь суперзвезды вы забиваете в поисковик ее имя – и первое, что видите, это некрологи. Вчера, позавчера, месяц назад про этого человека искало информацию примерно одинаковое количество людей – а сегодня, когда все заполонили новости о его смерти и другие люди ищут «причину», «фото с места трагедии», «последние данные» и прочее, алгоритм предполагает, что и вы – один из них. Ну то есть шанс, что вы вдруг решили именно сегодня и сейчас что-то почитать про этого актера-писателя-композитора, вообще не зная о его кончине, крайне мал.
Значит, вас интересует главный инфоповод, который интересует вообще всех.
Так что вчера запросу с именем была релевантна статья на Вики, а сегодня – уже некрологи. Sic transit gloria mundi.
Выработка таких вот стереотипов – первичная задача машинного обучения.
Коллаборативная фильтрация (это когда нас всех по полочкам расставили)
Дааа, мы все уникальны. Но все-таки два типичных профессора института больше похожи между собой, чем каждый из них – на питерского хипстера или каюра из Хабаровского края.
Всех их интересует разное. Всем им с большей долей вероятности лучше предложить что-то, что предпочитают похожие на них людей.
Такая фильтрация нашла отличное применение в интернет-магазинах. Все же видели «Похожие товары» и «Вместе с этим покупают»? Это две абсолютно разные категории, конечно – для ноутов в первой покажут ноуты, во второй – мыши и зарядники.
Но ноуты будут примерно в той же ценовой категории, что и выбранный, заметьте, а зарядники будут подходить к ноутам.
Иногда алгоритмы ошибаются, потому что у них очень маленькая выборка. Вчера я заказывал на одном известном маркетплейсе книгу воспоминаний Витте (тот самый, который министр финансов и еще всякого в Российской империи). В категории «С этим товаром также заказывают» лежал комикс о Человеке-пауке. Ну, понятно, кто-то просто купил два этих издания вместе, а алгоритм не учел кучу других признаков, которые надо было бы учесть – как минимум, что это очень разные жанры.
У меня, кстати, в том же заказе была книга «III-е отделение при Николае I». Так что, может быть, кому-то и ее предложат вместо Человека-паука. Как-то оно все-таки… порелевантнее.
Выводы? Их три
Во-первых, каждым кликом вы сами рассказываете алгоритмам все больше и больше о себе.
Во-вторых, никто за вами не следит. Просто мы все действительно очень похожи, как ни обидно об этом думать.
В-третьих, ничего плохого в этом нет: благодаря тому, что нейросети узнают нас все лучше, они могут предлагать нам самое интересное и подходящее. Бизнес старается что-то продать нам под этим соусом? Ну да. Так он продавал бы и без алгоритмов – а так мы хотя бы получаем что-то действительно желанное.