Найти тему
Счастливый Бармен

Как Яндекс определяет куда чаще всего ездят таксисты

Популярность того или иного места среди пользователей Яндекс.Такси определяет по числу заказов, в которых это место было пунктом назначения. Это значит, что про каждую поездку яндексу нужно понять, куда направлялся пассажир. Когда название организации есть в заказе, всё просто. Но люди часто указывают только адрес, причём иногда неточный: например, название улицы без номера дома.

Поэтому на первом этапе такси работает не с адресами или названиями организаций, а с максимально конкретными данными — координатами, в которых водители завершали поездки. Яндекс находит скопления конечных точек (кластеры) и определяет, куда хотели попасть приехавшие туда люди. Для этого используется информация из описания поездки: кластер относится к той организации, название которой встречается в большинстве заказов.

В некоторых местах — например, возле больших торговых центров — получается сразу несколько кластеров. Если из описаний заказов, относящихся к этим кластерам, видно, что они относятся к одной организации или адресу, Яндекс склеивает такие кластеры и считает, что все люди ехали в одну организацию.

-2

На последнем этапе они проверяют, не склеил ли алгоритм кластеры, которые на самом деле относятся к нескольким разным организациям, — в Москве примером такой некорректной склейки стал кластер на площади Европы, где находятся Киевский вокзал и ТЦ «Европейский». Подобные кластеры разделяют вручную: зачисляют каждой из самых популярных организаций число поездок, пропорциональное числу заказов, в которых было явно указано её название.

-3

Исключение составляют кластеры баров и ресторанов, их Яндекс не расклеивает: в местах вроде «Красного Октября» в Москве или улицы Рубинштейна в Петербурге так много заведений и расположены они так кучно, что результаты расклейки были бы слишком неточными.