Найти в Дзене
Обо всем и ни о чем

Как гений математики взломал OkCupid, чтобы найти настоящую любовь

КРИС МАККИНЛИ БЫЛ свернут в тесную кабину пятого этажа в здании математического факультета Калифорнийского университета в Лос-Анджелесе, освещенную одной лампочкой и светом его монитора. Было 3 часа утра, оптимальное время, чтобы выжать циклы из суперкомпьютера в Колорадо, который он использовал для своей докторской диссертации. (Тема: крупномасштабная обработка данных и параллельные численные методы.) Пока компьютер пыхтел, он открыл второе окно, чтобы проверить свой почтовый ящик OkCupid. Маккинли, долговязый 35-летний мальчик с растрепанными волосами, был одним из примерно 40 миллионов американцев, ищущих романтики на таких сайтах, как Match.com, J-Date и e-Harmony, и он тщетно искал со времени своего последнего распад девять месяцев назад. Он разослал десятки милых вступительных сообщений женщинам, которые рекламировались как потенциальные совпадения алгоритмами OkCupid. Большинство из них были проигнорированы; он прошел в общей сложности шесть первых свиданий. В то раннее утр

КРИС МАККИНЛИ БЫЛ свернут в тесную кабину пятого этажа в здании математического факультета Калифорнийского университета в Лос-Анджелесе, освещенную одной лампочкой и светом его монитора. Было 3 часа утра, оптимальное время, чтобы выжать циклы из суперкомпьютера в Колорадо, который он использовал для своей докторской диссертации. (Тема: крупномасштабная обработка данных и параллельные численные методы.) Пока компьютер пыхтел, он открыл второе окно, чтобы проверить свой почтовый ящик OkCupid.

Маккинли, долговязый 35-летний мальчик с растрепанными волосами, был одним из примерно 40 миллионов американцев, ищущих романтики на таких сайтах, как Match.com, J-Date и e-Harmony, и он тщетно искал со времени своего последнего распад девять месяцев назад. Он разослал десятки милых вступительных сообщений женщинам, которые рекламировались как потенциальные совпадения алгоритмами OkCupid. Большинство из них были проигнорированы; он прошел в общей сложности шесть первых свиданий.

В то раннее утро в июне 2012 года его компилятор хрустнул машинный код в одном окне, его несчастный профиль знакомств бездействовал в другом, и его осенило, что он делает это неправильно. Он приближался к онлайн-сватовству, как и любой другой пользователь. Вместо этого он понял, что должен встречаться как математик.

OkCupid была основана в 2004 году Гарвардскими специализированными учебными заведениями по математике, и впервые привлекла внимание дэтеров из-за своего вычислительного подхода к организации матчей. Участники отвечают на множество вопросов с несколькими вариантами ответов на все: от политики, религии и семьи до любви, секса и смартфонов.

В среднем респонденты выбирают 350 вопросов из числа тысяч: «Что из следующего наиболее вероятно привлечет вас к фильму?» Или «Насколько важна религия / Бог в вашей жизни?». Для каждого пользователь записывает ответ , указывает, какие ответы они сочтут приемлемыми для партнера, и оценивает, насколько важен вопрос для них по пятибалльной шкале от «неактуального» до «обязательного». Механизм сопоставления OkCupid использует эти данные для вычисления совместимости пары. чем ближе к 100 процентам - математическая родственная душа - тем лучше.

Но математически совместимость McKinlay с женщинами в Лос-Анджелесе была ужасной. Алгоритмы OkCupid используют только те вопросы, на которые оба потенциальных совпадения решают ответить, и вопросы совпадений, выбранные Маккинли - более или менее случайным образом, оказались непопулярными. Когда он просматривал свои матчи, менее 90 женщин появлялись бы выше 90-процентной отметки совместимости. И это было в городе с населением около 2 миллионов женщин (примерно 80 000 из них на OkCupid). На сайте, где совместимость равна видимости, он был практически призраком.

Он понял, что ему придется увеличить это число. Если с помощью статистической выборки Маккинли сможет выяснить, какие вопросы имеют значение для того типа женщин, которые ему нравятся, он сможет создать новый профиль, который честно ответит на эти вопросы и проигнорирует остальные. Он мог сопоставить каждую женщину в Лос-Анджелесе, которая могла бы быть ему подходящей, и ни одной, которая не была бы.

Крис МакКинлей использовал скрипты Python, чтобы пролистать сотни вопросов об опросе OkCupid. Затем он отсортировал женщин-датировщиков по семи группам, таким как «Разнообразные» и «Внимательные», каждый из которых имеет свои особенности.Маурико Алехо

Даже для математика МакКинлай необычен. Выросший в пригороде Бостона, он окончил Мидлбери-колледж в 2001 году по специальности китайский. В августе того же года он устроился на работу на неполный рабочий день в Нью-Йорке, переводя китайский на английский для компании на 91-м этаже северной башни Всемирного торгового центра. Башни упали пять недель спустя. (Маккинли не должен был присутствовать в офисе до 2 часов дня. Он спал, когда первый самолет врезался в северную башню в 8:46.) «После этого я спросил себя, что я действительно хочу делать». он говорит. Друг из Колумбии завербовал его в ответвление знаменитой профессиональной команды блэкджека из Массачусетского технологического института, и он провел следующие несколько лет, прыгая между Нью-Йорком и Лас-Вегасом, считая карты и зарабатывая до 60 000 долларов в год.

Этот опыт разжег его интерес к прикладной математике, в конечном итоге вдохновив его на получение степени магистра, а затем и доктора философии в этой области. «Они были способны использовать математику в самых разных ситуациях», - говорит он. «Они могли увидеть какую-то новую игру - например, Three Card Pai Gow Poker - затем пойти домой, написать код и придумать стратегию, чтобы победить».

Теперь он сделал бы то же самое для любви. Сначала ему понадобятся данные. В то время как его диссертационная работа продолжалась на стороне, он создал 12 поддельных учетных записей OkCupid и написал скрипт Python для управления ими. Сценарий будет выполнять поиск его целевой демографической группы (гетеросексуальные и бисексуальные женщины в возрасте от 25 до 45 лет), посещать их страницы и очищать свои профили для каждого куска доступной информации: этническая принадлежность, рост, курящий или некурящий, астрологический знак - «все это дерьмо ", говорит он.

Чтобы найти ответы на вопросы опроса, ему пришлось немного поработать. OkCupid позволяет пользователям видеть ответы других, но только на вопросы, на которые они сами ответили. Маккинли настроил своих ботов так, чтобы они просто отвечали на каждый вопрос случайным образом - он не использовал фиктивные профили для привлечения какой-либо женщины, поэтому ответы не имели значения, - а затем собрал ответы женщин в базу данных.

Маккинлей с удовлетворением наблюдал, как мурлыкают его боты. Затем, после того, как было собрано около тысячи анкет, он преодолел свой первый контрольно-пропускной пункт. OkCupid имеет систему, предотвращающую сбор данных именно этого типа: он может легко обнаружить быстрое использование. Один за другим его боты начали забанить.

Он должен научить их действовать по-человечески.

Он повернулся к своему другу Сэму Торриси, неврологу, который недавно преподавал теорию музыки Маккинлея в обмен на продвинутые уроки математики. Торриси также был на OkCupid, и он согласился установить шпионское ПО на свой компьютер, чтобы контролировать его использование сайта. Имея данные в руках, McKinlay запрограммировал своих ботов для имитации скорости нажатия и скорости печати Торриси. Он принес второй компьютер из дома и подключил его к широкополосной линии математического отдела, чтобы он мог работать бесперебойно 24 часа в сутки.

Через три недели он собрал 6 миллионов вопросов и ответов от 20 000 женщин по всей стране. Диссертация McKinlay была переведена в сторонний проект, как он погрузился в данные. Большинство ночей он уже спал в своей кабинке. Теперь он полностью отказался от своей квартиры и перешел в грязно-бежевую камеру, положив тонкий матрац на стол, когда пришло время спать.

Чтобы план МакКинлея сработал, он должен был найти образец в данных опроса - способ грубо сгруппировать женщин по их сходству. Прорыв произошел, когда он кодировал модифицированный алгоритм Bell Labs под названием K-Modes. Впервые использованный в 1998 году для анализа больных культур сои, он собирает категорические данные и собирает их, как цветной воск, плавающий в лавовой лампе. С некоторой тонкой настройкой он мог отрегулировать вязкость результатов, разжижая их в пятно или сворачивая их в единый твердый шарик.

Он играл с циферблатом и нашел естественную точку отдыха, где 20 000 женщин сгруппировались в семь статистически различных групп, основанных на их вопросах и ответах. «Я был в восторге», - говорит он. «Это была самая высокая точка июня».

Он перепробовал своих ботов, чтобы собрать еще один образец: 5000 женщин в Лос-Анджелесе и Сан-Франциско, которые вошли в OkCupid в прошлом месяце. Еще один проход через K-режимы подтвердил, что они группируются подобным образом. Его статистическая выборка сработала.

Теперь он просто должен был решить, какой кластер больше всего ему подходит. Он проверил несколько профилей от каждого. Один кластер был слишком молод, два были слишком стары, другой был слишком христианином. Но он задержался над группой, в которой доминировали женщины в возрасте около двадцати, которые выглядели как инди-музыканты, музыканты и художники. Это было золотое скопление. Стог сена, в котором он найдет свою иглу. Где-то внутри он найдет настоящую любовь.

На самом деле, соседний кластер тоже выглядел довольно круто - женщины постарше, занимавшие профессиональные творческие должности, такие как редакторы и дизайнеры. Он решил пойти на оба. Он настроил два профиля и оптимизировал один для группы А и один для группы В.

Он заминировал два кластера, чтобы узнать, что их интересует; преподавание оказалось популярной темой, поэтому он написал биографию, в которой подчеркивал свою работу в качестве профессора математики. Важной частью, однако, будет опрос. Он выбрал 500 вопросов, которые были наиболее популярны в обоих кластерах. Он уже решил, что будет честно заполнять свои ответы - он не хотел строить свои будущие отношения на основе компьютерной лжи. Но он позволил своему компьютеру выяснить, насколько важно задавать каждый вопрос, используя алгоритм машинного обучения, называемый адаптивным бустингом, для получения наилучших весов.

После этого он создал два профиля: один с фотографией скалолазания, а другой играл на гитаре на музыкальном концерте. «Независимо от будущих планов, что тебе сейчас интереснее? Секс или любовь?» пошел один вопрос. Ответ: Любовь, очевидно. Но для младшего кластера А он следовал указаниям своего компьютера и оценил вопрос как «очень важный». Для кластера B это было «обязательно».

Когда на последний вопрос был дан ответ и он получил оценку, он запустил поиск по женщинам в Лос-Анджелесе, отсортированный по проценту совпадений. Вверху: страница женщин соответствует 99 процентам. Он прокрутил вниз ... и вниз ... и вниз. Десять тысяч женщин прокручивали со всего Лос-Анджелеса, и он все еще был в 90-х годах.

Ему нужен был еще один шаг, чтобы быть замеченным. Члены OkCupid уведомляются, когда кто-то просматривает их страницы, поэтому он написал новую программу для посещения страниц своих матчей с самым высоким рейтингом, периодически повторяя их по возрасту: тысяча 41-летних женщин в понедельник, еще тысяча 40-летних женщин во вторник, возвращаясь назад, когда он достиг 27-летних через две недели. Женщины отвечали взаимностью, посещая его анкеты, около 400 в день. И сообщения начали накатывать.

«До сих пор я не встречал никого с такими выигрышными номерами, и я нахожу ваш профиль интригующим», - написала одна женщина. "Кроме того, кое-что о грубом человеке, который действительно хорош с числами ... Я бы сказал, привет".

«Привет! Ваш профиль действительно поразил меня, и я хотел сказать привет», - написал другой. «Я думаю, что у нас много общего, может быть, не математика, но, конечно, много других хороших вещей!»

"Вы действительно можете перевести китайский?" еще один спросил. «Я взял урок на короткое время, но он не прошел хорошо».

Математическая часть поиска McKinlay была сделана. Осталась только одна вещь. Ему придется покинуть свою кабинку и заняться исследованиями в этой области. Он должен идти на свидания.

30 июня Маккинли принял душ в спортзале Калифорнийского университета в Лос-Анджелесе и отвез его изуродованный «Ниссан» по городу на свою первую заминированную дату. Шейла была веб-дизайнером из группы молодых художников. Они встретились на обед в кафе в Эхо Парке. «Это было страшно», - говорит Маккинлей. «До этого момента это было почти академическое упражнение».

К концу его свидания с Шейлой для обоих стало ясно, что привлекательности там не было. На следующий день он пошел на второе свидание - привлекательный редактор блога из кластера B. Он планировал романтическую прогулку по озеру Эхо-Парк, но обнаружил, что его драгируют. Она читала Пруста и расстроилась из-за своей жизни. «Это было отчасти удручающе», - говорит он.

Дата три также была из группы B. Он встретил Элисон в баре в Кореаттауне. Она была студенткой-сценаристом с татуировкой спирали Фибоначчи на плече. Маккинли напился корейского пива и на следующий день проснулся в своем кабинете с мучительным похмельем. Он послал Элисон последующее сообщение о OkCupid, но она не ответила.

Отказ ужалил, но он все еще получал 20 сообщений в день. Знакомства с его компьютерными профилями была совершенно другой игрой. Он мог игнорировать сообщения, состоящие из плохих однострочников. Он ответил на те, которые показали чувство юмора или показали что-то интересное в их биографии. Когда он был преследователем, он поменял три-пять сообщений на одну дату. Теперь он отправит только один ответ. "Ты выглядишь действительно круто. Хочешь встретиться?"

К 20-му дню он заметил появление скрытых переменных. В младшей группе женщины неизменно имели две или более татуировки и жили в восточной части Лос-Анджелеса. В другой, непропорционально большое количество собак среднего размера, которых они обожали.

Его самые ранние даты были тщательно спланированы. Но поскольку он лихорадочно работал в своей очереди, он прибегал к случайным дневным встречам за ланчем или кофе, часто устраивая два свидания в день. Он разработал набор личных правил, чтобы пройти его поиски любви марафона. Нет больше пить, для одного. Конец даты, когда она закончится, не позволяйте ей затихать. И никаких концертов или фильмов. «Ничто, когда ваше внимание направлено на третий объект, а не друг на друга», - говорит он. «Это неэффективно».

Любовь это поле данных

Код McKinlay обнаружил, что женщины группировались в статистически идентифицируемые группы, которые, как правило, отвечали на вопросы опроса OkCupid аналогичным образом. Одна группа, которую он назвал Зелеными, была онлайн знакомством с новичками; другая, Саманта, была старше и более приключенческой. Вот как каждый кластер ответил на четыре самых популярных вопроса.