Найти тему
Академия Яндекса

Неожиданные вещи, которые можно узнать о людях благодаря анализу данных

Оглавление

Директор по стратегическому маркетингу Яндекса Андрей Себрант рассказал, как алгоритмы, подбирая для нас рекламу или приятного собеседника, узнают о людях больше, чем те сами знают о себе. Подробнее о больших данных можно узнать из видеозаписи лекции Малого ШАДа.

Что не является препятствием для отношений

Алгоритмы работают, в том числе, и над тем, чтобы найти идеальную пару. Сайт знакомств eHarmony обрабатывает миллионы анкет, но при выборе подходящей пары руководствуется не теми запросами, которые вы написали, а зависимостями, которые он сам вывел, проанализировав историю отношений пользователей: кто чей профиль пролистнул, кому написал, с кем сходил на одно свидание, с кем на пять. А благодаря тому, что многие оставляют благодарные отзывы «Спасибо, мы поженились!», появляются и данные о стопроцентных попаданиях.

На основе данных алгоритма eHarmony вывел зависимость вероятности успеха от разных факторов. Например, чаще всего всё складывалось у пар, где мужчина на 10 сантиметров выше женщины. Это вроде очевидно, опытная сваха скажет вам то же самое. Но выявились и куда менее очевидные правила. Расстояние, которое разделяет потенциальных партнёров, также влияет на выбор. Сначала с увеличением расстояния вероятность успеха предсказуемо падает, но на ста километрах падение останавливается, а на трёх тысячах километров даже начинает расти. Получается, что, если человек тебя заинтересовал, нет разницы, проехать ли 100 километров на машине или, например, за те же два часа долететь от Москвы до Питера, чтобы встретиться.

Очевидной казалась и зависимость от вкусовых предпочтений: если вам нравится одна и та же кухня, больше вероятность, что вы сходите хотя бы на несколько свиданий. Но оказалось, что это не работает с фанатами фастфуда: они не только не пользуются популярностью у пользователей с другими кулинарными предпочтениями, но особенно активно избегают себе подобных. Так что практический совет, подсказанный алгоритмом, — если любишь Биг Маки, не пиши об этом на сайте знакомств. Кстати, фотографироваться для профиля на сайте знакомств он советует по пояс: снимки с крупным планом лица или красивые виды с маленькой фигурой человека уменьшают вероятность, что вам напишут.

Какие интересы объединяют людей со странными интернет-запросами

К помощи машинного обучения прибегают представители электронной коммерции, чтобы добраться до своей целевой аудитории и показать ей рекламу, которая сработает. Специалисты Яндекса обучили алгоритм на определённой выборке представителей целевой аудитории, и он начал классифицировать людей в зависимости от того, какие запросы они пишут в поисковой строке. Когда решили посмотреть, что потребители тех или иных товаров ищут в интернете, некоторые запросы оказались неожиданными (по данным на 2015 год).

Мамы с детьми до трех лет:

[годовалый], [ходунки], [котофей], [бебиблог], [брокколи], [дом2новости], [джигурда]

Геймеры:

[дота], [кпд], [массовка], [cheat], [эмулятор], [варфэйс], [капа], [паркур], [гайд], [дрифт], [замужество], [партнёрка], [прицел], [приворот]

«Выпендрёжники» (так охарактеризовали категорию по описанию заказчика):

[уильямс], [рафаэль], [инканто], [азур], [бирюза], [топхотелс], [татуаж], [пегий], [центробанк], [старец], [нептун], [парадиз], [арго], [slender], [ларедут], [вепрь]

Люди, которые смотрят телевизор больше часа в день: [сбербанк], [коммунальный], [шарлотка], [выкройка], [irr], [тнт], [дом2], [спартак], [цска], [пиво]

Что среди запросов геймеров делает приворот? Никогда и в голову не придёт, что любители онлайн-игр этим интересуются, а между тем это очень частый запрос. Или в запросах мам — брокколи и джигурда? Получается, что, с одной стороны, можно было силой разума предположить часть этих запросов или нанять группу экспертных мам и спросить «что вы ищете?». Они наверняка назвали бы что-то, что на поверхности, вроде ходунков. А можно отслеживать настоящий поток запросов, кроме предсказуемых связей выявляя и неочевидные. В итоге, если вы не в меру часто ищете информацию про брокколи, то вам могут начать показывать рекламу товаров для детей, даже если вы, стараясь обмануть систему, пытались не искать ходунки или котофея.

И, шутки шутками, но это работает. Продажи растут в разы. Мы, конечно, не можем выловить всех мам с детьми, например, но машинное обучение может помочь повысить эффективность общения с теми или иными группами людей.

Кем был ваш прапрадедушка

Создатели сайта ancestry.com предлагают своим пользователям собрать историю их семьи на основе данных ДНК, оцифрованных фотографий, данных переписей, записей загсов и церковных книг. Часть этих данных пользователи вводят сами: кто они, откуда, откуда родом их бабушки и дедушки. Сейчас в базе данные 20 миллионов клиентов и несколько миллиардов профилей людей из разных эпох и частей света. Для проекта разработали технологию, позволяющую сравнивать данные ДНК пользователей (для исследования клиенты присылают свою слюну в пробирке) с теми данными ДНК, которые уже есть в базе, строить между ними связи и соотносить полученные данные с оцифрованными документами. Иногда пользователь оказывается биологически связан с семьёй, с которой официально его ничто не связывает. Но мало ли кто с кем согрешил — ДНК-то не соврёт.

Но в этих данных очень много шума. Имя и фамилия — это не уникальные идентификаторы, в записях могли появиться ошибки, распознавание лиц на старых фотографиях тоже работает не идеально — нечёткой информации очень много. Для обычного алгоритма это проблема. Но алгоритм, обученный на типичных ошибках такого рода, может делать на них скидку и создавать семейные деревья, несмотря на мелкие несоответствия. Если большая часть параметров совпадает, то алгоритм понимает, что скорее всего этот человек ваш прапрадедушка. С вероятностью 75 процентов, например. Так что использовать эти данные как доказательство в суде нельзя, но общую историю они позволяют проследить.

На самом деле задача перед проектом стоит куда более масштабная: записать семейную историю всего человечества. Сотни тысяч людей находят своих родственников, любители генеалогии строят более развесистые семейные деревья, а попутно команда проекта получает интереснейшие данные о человеческой миграции и об исторической демографии. Понятно, что информация эта неполная, например, информации о миграции в Сибири у них нет — там и в пробирки их никто не плевал, да и церковные книги в своё время были уничтожены — но всё, что касается Европы и США последних двух веков, изучено очень неплохо.

О чем говорит ваш выбор покупок в магазине

В 2012 году в офис американской сети гипермаркетов Target вместе с журналистами пришёл возмущённый отец старшеклассницы, которой стали присылать рекламу товаров для беременных. Мужчина негодовал: «Как вы могли подумать! Она же ещё учится в школе!». Руководство компании в замешательстве! Через две недели менеджеры, нагруженные подарками, поехали к нему извиняться, но отец вдруг сам попросил у них прощения. Оказалось, что девушка и вправду была беременна, хотя сама даже не знала об этом. Решение о том, какую рекламу присылать клиентам, принимал алгоритм Target’а, обученный на истории покупок тысяч владельцев карт лояльности. Такие карты — оффлайновый аналог cookies, метки, которая позволяет анализировать поведение и привычки отдельных покупателей. Такая система появилась лет 30 назад, и она позволяет, например, присылать покупателю сообщения о товарах, которые, по мнению алгоритма, могут быть ему интересны. И вот в случае с этой девушкой алгоритм среагировал на изменение вкусов. Смена марки лосьона в пользу менее пахучего, изменение частоты покупки гигиенических товаров — всё это сообщило алгоритму важную новость ещё до того, как девушка сделала тест.

Данных сейчас очень много. Они доступны, а не лежат где-то в кладовке на магнитных лентах и перфокартах, и современные мощности позволяют с ними работать. Всё популярнее становится фраза «Данные — это нефть XXI века». В далёком 2006 году Майкл Палмер написал ещё точнее — что это сырая нефть. Они, конечно, полезны, но пока их не переработают, их нельзя использовать. Можно торговать и нефтью, но бензином и пластиком выгоднее. Пока нет идеи, во что их переработать, в них не так много смысла, и тут главное — правильно задать вопрос. Так что если вы решили заняться большими данными, то сейчас для этого самое время.