Найти в Дзене
Data Science и всё такое

DataMining до свадьбы доведет. Как знакомятся с девушкой четкие Data Scientist'ы.

@just_data_science October 01, 2017

Сладкая парочка. Необычную сторию их знакомства вы сейчас узнаете.
Сладкая парочка. Необычную сторию их знакомства вы сейчас узнаете.

В июне 2012 года 35-летний Крис Маккинли зарегистрировался на сайте знакомств OkCupid. Сайт использует хитрую систему вычисления совместимости между потенциальными партнёрами. Каждый из них отвечает на сотни вопросов о своём характере, привычках и предпочтениях. Вопросы самые разные: «Любите ли вы кошек?», «Как часто вы используете Facebook?», «Как долго планируете встречаться?» и т.д. После этого вы можете посмотреть, насколько тот или иной человек подходит вам. Система показывает вероятность успешных отношений, дружбы и вражды. Логика в том, что чем больше партнёры похожи, тем лучше им будет друг с другом.

Хитрость в том, что посмотреть, как ответила девушка на определённый вопрос, можно только после того, как вы сами ответите на него. При этом максимальное количество для каждого участника ограничено 350 ответами, в то время как общий банк содержит тысячи вопросов. Другими словами, некоторые ответы девушек навсегда останутся для вас загадкой, и «рейтинг совместимости» получается неточным.

Маккинли нашёл всего лишь около 100 девушек, у которых показатель совместимости превышал 90%. Криса хватило на шесть свиданий - было очевидно, что свидания с подобранными сайтом девушки как-то не сложились.

И тогда парень, будучи математиком-датасайентистом, придумал способ, как провести анализ по своим собственным правилам. Он решил устроить дата-майнинг анкет девушек этого сайта. Крис создал 12 вымышленных профилей, отвечая на вопросы наугад таким образом, чтобы все анкеты получили как можно большее количество вопросов сайта и ответили как можно большим количеством вариантов. Таким образом, каждая из 12 анкет получила доступ к ответам девушек, которые он не увидел бы со своей настоящей анкеты - потому что ему сайт не задавал эти вопросы. После этого он начал сохранять ответы девушек в свою базу данных. За три недели такого дата-майнинга его система собрала 6 млн ответов от случайно выбранных 20 тыс. анкет девушек.

После этого он оставил в базе данных только тех девушек,которые живут в Лос-Анджелесе и Сан-Франциско и заходили на сайт в течение последнего месяца. Выборка уменьшилась в 4 раза - осталось 5000 анкет.

Далее Крис написал скрипт для сортировки девушек с разными характеристиками на семь кластеров (групп), вроде «Заботливые», «Верующие», «Татуировки» и т.д.  После чего он обнаружил, что ему интересны девушки в основном из двух групп. В первой были девушки примерно 25 лет хиповатого стиля, музыканты и актрисы. Во второй кластер вошли более старшие девушки с креативными профессиями в литературе и дизайне. Так что Крис создал еще два профиля со своими реальными данными: один заточил под совместимость с девушками первой группы, второй профиль - соответственно совместим с девушками второй группы. В каждой из анкет он ответил на несколько сотен самых популярных вопросов каждой из групп. Здесь уже Крис отвечал на вопросы честно, хотя слегка видоизменял ответы в зависимости от кластера.

Результаты оказались поразительными. Он сразу получил более 10 000 результатов с совместимостью более 90%. На последнем этапе нужно было привлечь внимание девушек. Сайт OkCupid информирует пользователя, если в его профиль кто-то заходит, так что Крис написал программу-бота для автоматического посещения анкет всех девушек с показателем более 90%. Потом он проверял, кто из них заходил к нему в ответ. Таким образом он получал от девушек до 20 ответов в день, после чего связывался с ними.

30 июня компьютерная часть квеста закончилась и наступило время свиданий. К 20 июля Крис обратил внимание, что женщины из первого кластера часто живут в дальней части города, а у женщин второй группы часто есть собачка среднего размера. Для экономии времени он удалил профиль первой группы и этим сократил количество кандидаток вдвое. За июль математик смог провести 55 свиданий. В трёх случаях дело дошло до второго свидания, но всё безрезультатно. И только на 88-м свидании Крису повезло и он нашёл поистине родственную душу, 28-летнюю художницу, с которой у него был рейтинг совместимости 91%. Они продолжили встречаться даже через год, когда девушка вернулась после годичной стажировки из Катара, после чего они поженились.

Вся эта история происходила в 2012 году. Мне стало интересным, сколь крепким оказался их брак. Нашел имя жены - Кристина Ванг, нашел ее инстаграм. Похоже все отлично - хоть и редко, но иногда выкладывает их довольные совместные фото. Например, в начале статьи - как раз фото из инстаграма Кристины, датированое апрелем 2016.

Кстати, в русском переводе наш герой назывался математиком, а не Data Scientist'ом. Хотя по описанию проделаннной Крисом работы мне было понятно, что это явный data scientist, а не просто математик. Чтобы убедиться, нашел его профиль на LinkedIn: https://www.linkedin.com/in/cem3394/ - действительно, сейчас он Senior Data Scientist. Математиком он был назван, потому что на момент происходивших событий писал докторскую диссертацию на математическом факультете Лос-Анджелеского универститета.

Вот так дата майнинг может пригодиться для налаживания личной жизни.

Оригинальная статья: https://www.wired.com/2014/01/how-to-hack-okcupid/all/

Использован перевод оригинала из: https://habrahabr.ru/post/210198/