Найти тему
Анна Шестопалова

# моя книжная полка

Листала на днях книгу "Практическая статистика для специалистов Data Science" (кстати, отличный справочник, чтобы быстро освежить в памяти забытую тему), и наткнулась на выделенный когда-то тезис: "Если мучить данные слишком долго, то рано или поздно они дадут признательные показания". Кажется, лучше и не скажешь. Особенно сейчас, когда доступность инструментов для работы с big data и обучающих курсов по data science нагоняет магический флер на анализ данных сродни гаданию на кофейной гуще: вот у нас хаос из крупиц кофе, размазанных по дну чашки, и вдруг (конечно не вдруг, а если долго-долго смотреть) там проступает силуэт...

В общем, пример из этой книги настолько емкий и показательный, что не могу им не поделиться (далее цитата).

Если вы определяете гипотезу и проводите хорошо проработанный эксперимент с целью ее проверки, то можете быть уверенными в выводе. Однако зачастую, вместо этого смотрят на имеющиеся данные в попытке разглядеть регулярности. Но является ли регулярность реальной или же она всего лишь продукт прочесывания данных, т.е. подробной ревизии данных, пока не появится нечто интересно?

Разницу между явлением, в котором вы удостоверяетесь, когда проверяете гипотезу при помощи эксперимента, и явлением, которое вы обнаруживаете, преследуя имеющиеся данные, можно разъяснить следующим мысленным экспериментом.

Предположим, что кто-то говорит вам, что он может заставить приземлиться подбрасываемую монету орлом в течение следующих 10ти бросков. Вы принимаете вызов (эквивалент эксперимента), и он приступает к 10-кратному подбрасыванию монеты, и всякий раз монета приземляется орлом. Совершенно очевидно, что вы припишите этому человеку какой-то особый талант - вероятность, что в результате 10 бросков монеты она просто по чистой случайности повернется орлом, составляет 1 из 1000.

Теперь предположим, что диктор на стадионе просит, чтобы все присутствующие 20 тысяч человек подбросили монету 10 раз и сообщили работнику стадиона, в случае если они получал 10 орлов подряд. Шанс, что кто-то на стадионе доберется до 10 орлов, чрезвычайно высокий (более 99% - это 1 минус вероятность того, что никто не получит 10 орлов). Безусловно, отбор постфактум человека (или людей), который получил 10 орлов на стадионе, не говорит о том, что он имеет какой-то особый талант, - скорее всего это просто удача.