Работа над исследованием "Влияние приоритета на заработок" (посмотреть первую часть) перешла во вторую фазу - уточнением параметров и сбором данных и продолжается с переменным успехом. Несмотря на то, что я в первой части в грубом приближении спроектировал матрицу необходимых данных - реальность показала, что кое чем придется пожертвовать ради точности.
Дисклеймер - пока результатов не будет, поэтому кто хочет сразу получить ответ - лучше закрывайте статью )) Она для тех, кто интересуется темой, внутренней кухней и нюансами. Кто хочет понимать, откуда эти данные, насколько они достоверны и применимы к их собственным цифрам. Итак...
Сложности сбора статистики для этого исследования
Основная сложность - в "очищении" данных из диспетчерской. Практически по каждой цифре есть нюансы:
Стоимость км
Сначала я хотел рассчитывать заработок в час и заработок за км исходя из пробега и дохода. (как я это делаю для собственной аналитики) Но пробег отраженный в диспетчерской - увы, для этого не подходит. Он ведется только по пробегу в статусе "в пути" - то есть не учитывает подачу и холостой пробег. В принципе - это не смертельно, поскольку все в одинаковых условиях - то есть соотношение и динамику она будет показывать верно. (другой вопрос что рядовой читатель не сможет ее сравнить с тем, что он у себя видит. Большинство водителей снимают показание одометра только в начале и конце). Но тут есть и вторая проблема - сбои в GPS. Да, таких поездок мало, но они могут очень существенно искажать статистику. Можно конечно их отслеживать и корректировать - но это уже слишком муторно и долго. Поэтому в данном конкретном исследовании - я это делать не буду и ограничусь только заработком в час.
Заработок
Для этого в диспе есть несколько "полей". Самое очевидное - это просто взять Среднечасовой заработок. (Он получается путем деления Итоговой суммы на время). В свою очередь для ИТОГО берется грязный приход и суммируются\вычитаются все добавки (чаевые, бонусы, компенсации и.т.д) и расходы (заправки, налоги, комиссии и т.д) .
Все в общем то понятно, но для нашей истории эту цифру использовать нельзя по нескольким причинам:
1. Вычитание налогов. Если у СМЗ налог вычитает яша и учитывает это в итоговой цифре, то у ИП - налог платится отдельно - а отсюда уже разница.
2. Комиссия парка - да, внутри парка она тоже может быть разной.
3. Комиссия яндекса тоже разная. У чемпионов - 4%, а у легенд аж 10% скидка.
4. Чаевые.
Если это оставить без внимания и использовать в том виде как есть - искажение может составить 10-15% что слишком много. Поэтому, как бы не хотелось (ради скорости) использовать этот параметр - от него пришлось отказаться.
И для "чистой" цифры я решил использовать "Сумму с таксометра". по сути - это стоимость выполненного заказа, какую вы видите в когда смотрите в истории заказа. (сам заказ + кэф, если есть). Ну в ней же учитывается компенсация от яндекса, если пассажир использовал промокод. И уже его делить на время и получать наичистейший (для нашего исследования) заработок в час, который будет избавлен от случайностей (чаевые) и изначальных неравных условий водителей (разные комиссии, налоги). Собственно тут будет играть роль только сами заказы: их плотность и качество (хотя к этому термину "качество" - лично у меня большие претензии)
Отдельный вопрос с доп.комиссией за разные режимы. Кто-то их использует, а кто-то нет - отсюда и будет небольшой разброс в этой цифре, который может чуть исказить результаты. Ведь у тех кто ЮЗАЕТ - будет выше заработок в час, поскольку не будет вычитаться повышенная комиссия яндекса Есть три варианта:
Проще всего - просто исключить из выборки водителей, которые пользуются доп. режимами.
Второй вариант (очень трудоемкий) - Вычленять такие заказы и вычитать эту доп.комиссию.
Пока я не решил как с ними поступать. Пусть пока войдут в выборку, но с пометкой, чтобы потом если что отдельно по ним пройтись и либо досчитать, либо просто исключить...
Еще одна неожиданность
После всех этих нюансов я уже начал было собирать данные и вдруг обнаружил, что цифры не сходятся... "Сумма с таксометром" в некоторых случаях не билась с суммой составляющих (как правило она была больше). Это несоответствие добавило мне головной боли и я чуть было не плюнул на все. Но по итогу разобрался, что "Сумме с таксометра" надо верить ))) Все дело оказалось в том, что она - из итогового теоретического расчета. А вот сумма её составляющих ( приходы) - из реальных. То есть, если заказ был 10 марта - а с клиента списали только 12 числа - в обоих днях "Сумма с таксометра" будет правильной, а вот безнал - 10 марта будет в минус, а 12 - в плюс на эту сумму...
Теперь дело за малым, перелопатить гору цифр
Собственно, вроде все учел все нюансы. Буду собирать общую (месячную) статистику, но для контроля, возможно в подозрительных случаях (аномально высокие или низкие цифры - можно будет разложить на недельные, или даже дневные).
И я тут подумал, что для тех, кому интересно - я буду это делать в гугл-таблице. (ссылку оставлю здесь чуть позже) И каждый желающий может посмотреть за ходом исследования. Начну я с Екатеринбурга ))))
И для тех, кто еще не проголосовал:
ЧТО БЫЛО ДАЛЬШЕ
Для тех кто интересно подробности сбора данных:
И кому сразу подавай на блюдечке: