Нам понадобится понимание двух очень важных величин:
✅ Что такое p-value или p-уровень значимости.
✅ Что такое коэффициент корреляции Спирмена.
Поверьте, их смысл проще, чем звучат их названия.
📍 p-value
Наверняка, вы встречали это понятие не раз, если пробовали самостоятельно читать любые статистические исследования или научные публикации по медицине, биологии, социологии и многим другим дисциплинам.
Разберемся на примере.
Пусть мы хотим выяснить, действительно ли после долгой прогулки люди испытывают больший голод, чем после просмотра ТВ столько же времени.
Измерять степень голода будем в потребленных калориях.
Произвольно поделим всех испытуемых на две группы: одну посадим на диваны и дадим в руки пульты, а вторую отправим наматывать круги по зимнему парку.
Через пару часов всех участников пригласим к накрытому столу, но попросим записывать все, что они съели.
После подведения итогов видим, что те, кто вернулся с прогулки, в среднем съедали на 200 ккал больше, чем телезрители.
Как теперь понять, можно ли доверять таким результатам, или же это просто случайность? Изменились бы выводы, если бы мы изменили количество участников эксперимента или по-другому распределили добровольцев между группами?
В науке принято считать, что связи между двумя событиями нет, если не доказано обратное. Если не следовать этому правилу, то легко желаемое выдать за действительное, а этого нам точно не нужно.
Мы ведь хотим объективности?
А потому наш вопрос будет звучать так:
“какова вероятность получить такое же (в 200 ккал) или даже более выраженное расхождение между группами, если НА САМОМ ДЕЛЕ долгие прогулки никак не соотносятся с аппетитом?”
Эта вероятность и есть p-уровень значимости (p-value).
Прочитайте абзац еще 3 раза.
P-value считается несколькими способами, а способ подбирается в зависимости от данных, которые нужно сравнить (сегодня этот вопрос не обсуждаем).
▶️ Вернемся к нашему примеру.
Пусть мы выбрали метод расчета p-value, посчитали его и получили p=0,02 (2%).
⏩ Интерпретируем.
«Если НА САМОМ ДЕЛЕ никакой связи между аппетитом и прогулками НЕТ, то шансы получить расхождение в 200 ккал или даже выше, равны 2%».
Много это или мало? Хорошо или плохо?
Биология - штука, где промахи стоят дорого (иногда цена им - это чья-то жизнь).
Поэтому для P-value установлен порог p=0.05 (5%), а чем МЕНЬШЕ него, тем - лучше.
Так что в нашем примере мы получили ответ, который говорит нам, что ВЕРОЯТНЕЕ ВСЕГО связь между аппетитом и прогулками есть!
❤️ В заключение пара ремарок от математика:
✅ 1. P-value - не панацея. Серьезному исследованию НЕдостаточно иметь лишь хорошее (<0.05) p-value и строить на нем выводы. Более того, некоторые медицинские журналы и вовсе отказались от использования этой величины как показателя надежности результатов. Вопрос этот большой и сложный, не будем в него углубляться. Практический совет математика биологам и медикам: смотрите, чтобы результаты исследования подтверждались как минимум еще одним способом, а не только уровнем значимости.
✅ 2. Плохое p-value (>0.05) НЕ ГОВОРИТ, что начальное предположение (называется «нулевая гипотеза») ВЕРНО! То есть если бы в нашем примере мы получили p=0.9, это НЕ ЗНАЧИЛО бы, что связи между аппетитом и прогулками НЕТ. Возможно, что ее нет, а возможно, что в нашем эксперименте ее просто не удалось обнаружить и если мы хотим искать связь дальше, то нужны новые исследования, возможно с другим дизайном.
Это ОЧЕНЬ важный момент. Чтобы избежать этой неопределенности, надо правильно проектировать эксперимент ДО момента его начала. Но это отдельная большая тема.
Коэффициент корреляции Спирмена
Давайте разбирать по словам:.
✅ 1. Корреляция. Она же статистическая взаимосвязь.
Пусть у нас есть 2 параметра (А и В). И, например:
- при росте параметра А параметр В тоже растет.
- при падении А парамет В тоже падает.
В таком случае можно говорить о том, что эти два параметра коррелируют.
Вроде бы все просто.
Но тут есть риск попасть в логическую ловушку!
Забавный пример такой ловушки из учебника “Общая теория статистики”
«Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причем эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причиненного ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад».
А вот еще вариант попасть впросак, слепо доверившись факту наличия корреляции.
Если построить график потребления сыра на душу населения в США с 1999 по 2009 годы и график смертности от запутывания в простынях (и так бывает!) за тот же период, то удивительным образом окажется, что они совпадают! Значит ли это, что одно есть причина другого?:) Конечно нет.
Пример из практики аналитика @annie_thornni
“Однажды мы выяснили, что люди, у которых более двух маленьких детей менее склонны менять компанию, которой пользовались, чем те, у кого вообще нет детей. То есть куда лучшие клиенты, чем бездетные. А бездетные, в свою очередь, более стабильные клиенты, чем те, у кого есть один ребенок. Абсурд! На первый взгляд да. Но на самом деле через наличие детей мы можем косвенно увидеть другую вещь: наличие свободного времени (чем больше детей, тем меньше времени. Однако если детей нет совсем, то человек может быть занят работой и на поиски другой компании услуг у него нет времени). А это уже гипотеза, которая требует проверки”.
ВЫВОД: если между двумя явлениями есть корреляция, это совершенно не означает, что между ними есть причинно-следственные связи потому что:
а) это может быть просто случайность.
б) связь может быть не между ними, а через некий иной неучтенный параметр.
✅ 2. «Коэффициент корреляции».
Корреляция - это связь величин, а через значение ее коэффициента мы оцениваем силу этой связи.
Некоторые варианты коэффициента позволяют судить не только о силе связи, но и о ее направлении:
⬅️ обратное - чем одна величина больше, тем другая меньше. И наоборот.
➡️ прямое - чем одна больше, тем другая больше. Чем одна меньше, тем другая меньше.
✅ 3. Теперь все вместе: “Коэффициент корреляции Спирмена” (r).
r позволяет судить о связи между двумя признаками, когда один из признаков изменяется логарифмически.
Например:.
То есть первый признак, выглядит так: 1, 3, 5, 7, 9, 11 …
А второй в это время выглядит так 1, 10, 100, 1000, 10 000, 100 000 ...
Что важно знать про r :
- Он изменяется от -1 до +1.
- r=-1 означает максимальную обратную связь.
- r=1 максимальную прямую связь.
- r=0 означает, что никакой связи не выявлено.
- r <= 0.3 означает, что связь очень слабая.
- 0.4 <= r <0.7 - умеренная связь.
- r >= 0.7 - высокая сила связи.
И в завершение уже традиционный комментарий от математика:
Если коэффициент корреляции близок к нулю, то это не значит, что связи между явлениями нет. Может быть, связь между ними подчиняется более сложным законам или учитывает и другие факторы, без которых не проявляется. Поэтому с этим коэффициентом также следует быть осторожными, пользоваться с умом и правильно планировать эксперимент перед его началом.