Найти тему

Убить "священную корову" A/B тестирования?

В каждой сфере деятельности человека есть своя «священная корова», которая такой стала с учётом нескольких успешных кейсов и потом уже не подвергается никакой критике и новому осмыслению, считает Alex Weinstein из GrubHub. В разработке продуктов к такой «корове» можно отнести A/B тесты. Вам скорее скажут, что если вы их не проводите, то вы конченный непрофессионал, чем скажут, что этот инструмент имеет свои серьёзные изъяны.

Давайте попробуем пробить брешь в этом чудесном инструменте, чтобы те ошибки, которые он может дать не были пропущены вами при разработке продуктов.

Но начнём с хорошего, если вы не проводите A/B тесты, то вы руководствуетесь слепой силой менеджмента, который проявляет полный волюнтаризм, не опираясь на мнение своих покупателей при принятии своих решений.

Делая A/B тестирование, вы бросаете вызов своим предположениям. Ах, как иногда трудно признать своё поражение, что твоя гипотеза была неверна!

-2

Ну, давайте же скорее перейдём к рассмотрению подводных камней этого, казалось бы, безупречного инструмента.

Временной фактор.

Каждый A/B тест, по определению, имеет длительность. Через некоторое время, которое вы, конечно же, определили путем не предвзятого расчета на статистически значимом объеме выборки, вы всем заявляете и себя убеждаете в том, что вариант B лучше, чем вариант A. Затем вы масштабируете вариант B и переходите к следующему тесту.

Но что делать, если в тот период, когда вы проводили тест, поведение пользователя было нетипичным? А что делать, если сработал просто эффект новизны варианта B и это то, что сделало его успешным? А потом, через несколько месяцев, этот вариант становится неэффективным? Люди попривыкли и перестали обращать на это внимание.

-3

Давайте приведём пример изменения ленты Facebook или Вконтакте, как наиболее наглядного примера. Вы вносите изменение и получаете сразу негативную реакцию пользователей из-за того, что они по привычке ищут возможность сделать что-то, как это было в старом интерфейсе. Если вы примете решение на основании теста, проведённого в течение недели, то вы получите неверный ответ, вам нужно было дождаться пока аудитория успокоится, реакции стабилизируются и только уже после продолжительного тестирования принимать решение.

Реакцией на такую ситуацию может быть: «а что, если все A/B тесты запускать навсегда?». Это по понятным причинам не работает. Положим вы на определённом промежутке времени увидели, что решение В более эффективно в 95% случаев, то какой смысл оставлять решение А и тем самым на этой аудитории терять деньги?

Можно автоматизировать этот процесс и при достижении определённого порога эффективности сворачивать те или иные тесты, но время тестирования в этом случае становится «бесконечным», возникает техническая проблема, если никогда не заканчивать тесты, то код становится запутанным и уже невозможно понять, где выгода, а где просто хаос.

Чтобы не входить в столь рискованное поле можно, как вариант, на критических сервисах повторять A/B тестирование. Запуск такого повторного теста много сил не потребует, но подтвердит, что победитель действительно был победителем и исправно справляется со своей задачей и генерит кэш.

-4

Эффект взаимосвязи. Отлично всё работает по отдельности, а вместе – ужасно.

Представьте, что вы работаете в большом розничном бизнесе федерального уровня. Вы со своими клиентами коммуницируете и через почту, и через Push уведомления. В погоне за постоянными улучшениями вы вносите изменения и в тот и в это канал, выполняя задачу по «реанимации брошенной корзины». На этом проекте одновременно разные команды, каждая команда работает со своим каналом: одна с пушами, другая – с почтой. Каждая команда отчитывается о высоком эффекте от внедрения рассылок и пуш-уведомлений. Вы счастливы и запускаете оба решения и клиент от вас начинает сбегать потому, что на него обрушился невероятный шквал из писем и пуш-уведомлений. По отдельности всё работает хорошо, а вместе больше негатива, чем позитива.

-5

Чтобы такого не происходило у вас должен быть человек, который отвечает за все тесты и может их посмотреть, как они работают совместно и какой дают эффект. Если же такого человека нет, то запускайте протестированные решения последовательно, а не параллельно и тогда вы увидите, что одно решение влияет на другое.

Чем больше тестов, тем выше вероятность ошибки.

Если у вас в компании привита культура экспериментов, то вам надо быть готовым к тому, что наличие людей, которые проводят целую кучу микротестов типа: изменить шрифт на один пункт, поменять порядок модулей, изменить пару слов в описании продукта и т.п., мало того, что такие изменения не ведут вас к неприкасаемому лидерству в вашем сегменте, так ещё и не понятно, как посчитать эффект от этой мелочёвки.

Каждый раз, когда вы оцениваете тест A/B и утверждаете, что вариант B лучше, чем вариант A, вы выполняете статистические вычисления, основанные на t-тесте (подробнее об этом тесте можно прочесть здесь) . Этот расчет предполагает понятие «доверительного интервала»: уровень уверенности, с которым вам комфортно. Установите его на 90 процентов, и 10 процентов выводов, которые дает ваша платформа тестирования A/B, будут неправильными — он скажет, что вариант B лучше, чем вариант A, в то время как на самом деле это не так.

-6

Теперь, что произойдет, если вы выполните 20 крошечных тестов, каждый с 10-процентной вероятностью ложноположительного результата? Ваш шанс найти победителя по ошибке (1 – 90 процентов в степени 20). То есть 88 процентов. Ваша платформа тестирования A/B покажет вам, по крайней мере, один, и, вероятно, два “поддельных” победителя из вашего набора 20 тестов с существенным результатом, возможно, что предоставив обратную связь экспериментирующей команде вы сделаете, действительно стоящий шаг в направлении эффективности.

Возможно, вам имеет смысл сократить количество микротестов.

Основной вывод: с такими проблемами, как описано выше, обычно сталкиваются в основном любители, поэтому обучайте ваши команды и всё у вас будет в порядке с чудесным инструментом A/B тестирования.

Рекомендую прочесть, что не так стало с распознаванием человека «Гомункул или эмоции, как фактор риска»

Автор Борис Агатов,

Независимый эксперт по внедрению инноваций в ритейле, автор концепции «Магазин 4.0»

От автора: «Провожу корпоративные семинары по теме: «Как открыть Магазин 4.0 без ошибок»

Создаю стратегию магазина 4.0, консультирую, помогаю разобраться в новых технологиях для ритейла, сравнить аналоги и выбрать оптимальный вариант для вашего бизнеса и дать новый импульс развития вашей компании при помощи новых технологий.

Связывайтесь через Facebook или http://agatov.new-retail.ru/ :

Больше информации на Facebook https://www.facebook.com/boris.agatov