Многие наверняка слышали такое понятие, как «систематическая ошибка выжившего». Если нет, то Википедия дает такое определение:
Системати́ческая оши́бка вы́жившего (англ. survivorship bias) — разновидность систематической ошибки отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») — практически нет, в результате чего исследователи пытаются искать общие черты среди «выживших» и упускают из вида, что не менее важная информация скрывается среди «погибших».
Иными словами, не имея полной картины или корректной выборки, нельзя судить о положении вещей. Если и сейчас непонятно, то вот в чём суть:
Во Вторую мировую войну венгерскому математику Абрахаму Вальду, работавшему в нью-йоркской лаборатории SRG, поручили найти решение важной задачи. Не все американские бомбардировщики возвращались на базу. А на тех, что возвращались, оставалось множество пробоин от зениток и истребителей, но распределены они были неравномерно: больше всего на фюзеляже и прочих частях, меньше в топливной системе и намного меньше — в двигателе. Значило ли это, что в пробитых местах нужно больше брони? Вальд ответил: нет, исследование как раз показывает, что самолёт, получивший пробоины в данных местах, ещё может вернуться на базу. Самолёт, которому попали в двигатель или бензобак, выходит из строя и не возвращается. Поскольку попадания от вражеского огня на самом деле (в первом приближении) распределены равномерно, укреплять надо те места, которые у вернувшихся в массе наиболее «чистые».
Также известно расхожее мнение о доброте дельфинов, основанное на рассказах пловцов, которых животные толкали к берегу, но нет данных от тех, кого толкали в обратном направлении.
Хорошо, но при чём здесь интернет-маркетинг (ИМ)? Всё просто.
Основным инструментом сбора данных для последующего анализа в ИМ служат счетчики статистики (например Метрика и Аналитикс). Они дают большое кол-во информации для анализа и дальнейших корректировок, и всё бы хорошо, но большинство слишком буквально принимает данные из счётчиков. А ведь погрешности начинаются уже на этапе сбора данных — точность сбора зависит от работы сайта, поведения пользователя, корректности настроенных целей и т.д. При выводе данных — существует такое понятие, как семплирование. Если кратко — то при больших объемах данных счетчик не использует их все, а берет выборку 1/10, и полученный результат умножает на 10.
То есть если у вас в магазине было 5 заказов, и они зафиксированы в метрике, то из-за семплирования вам может выдать что заказов было 3, или 8, или 0 — зависит от выборки, которую предпочтет алгоритм.
И всё это лишь предварительная информация, ведь цифры сами по себе — мертвы и бессмысленны, без человека который их анализирует. Так что же с человеком?
Всё, опять-таки, просто. Возьмем интернет-магазин. Предположим, что у нас 100% чистая и качественная статистика, собранная счетчиком. На сайт настроено 2 рекламных канала — контекстная реклама и таргетированая с инстаграма. И туда и туда мы потратили по 10.000 руб., но с контекста получили 20 заказов, а с инстаграма — 0. Какой первый вывод? Инстаграм не работает, все деньги вкладываем в контекст. Это и есть ошибка выжившего. Потому что если мы попробуем сами сделать заказ на сайте со своей рекламы с телефона (а с инстаграма идет 100% мобильный трафик), то увидим, что поплыла вёрстка и картинка товара закрывает кнопку заказа товара. И если человек даже очень захочет, он не сможет заказать товар. Из данных статистики этого нельзя понять.
Хорошо, но есть же вебвизор? Он позволяет смотреть сеансы посетителя на сайте, можно же по нему всё это увидеть?
Во-первых, как бы это смешно ни звучало, большинство предпочитает обходиться без него.
Во-вторых, вебвизор не снимает видео посещение сайта, а снимает поведение пользователя, а затем моделирует на ваш сайт. То есть опять не 100% точность. И что касается моделирования экрана мобильных устройств, здесь, как показывает опыт, ошибки возникают значительно чаще, чем при моделировании ПК.
Какие выводы из всего этого можно сделать?
Самое главное — нельзя слепо доверять цифрам, надо всегда смотреть глубже и шире. Надо читать между строк отказываться от фраз-клише и стараться понять, что стоит за данными, которые вы видите — плохая рекламная кампания, дорогой товар, или неработающая кнопка на сайте?