9 подписчиков

Половина научных результатов не выдерживает проверки. Что не так с социальными науками?

8 апреля8 апр

2 мин

Масштабный проект SCORE проверил тысячи статей по психологии, экономике и социологии. Выводы неутешительные, но не катастрофические. Завершился проект SCORE (Systematizing Confidence in Open Research and Evidence) — самая масштабная проверка надежности социальных и поведенческих наук. 865 исследователей проанализировали почти 3900 статей, опубликованных с 2009 по 2018 год в 62 журналах по экономике, психологии, социологии, педагогике, политологии и смежным дисциплинам. Результаты вышли в Nature. Главный вывод: только половина исследований проходит тест на повторяемость. Точнее — 49% из 164 проверенных статей удалось воспроизвести с новыми данными. Проект оценивал три параметра. Повторяемость (replicability) — та же гипотеза, новые данные, новый эксперимент. Самый строгий тест. Успех — 49%. Воспроизводимость (reproducibility) — те же данные, та же методика, другой исследователь. Точное совпадение — 54%, приблизительное — 74%. Проблема: данные были открыты только у четверти статей. Когда

Оглавление

Что проверяли
Можно ли предсказать надежность?
Что это значит

Масштабный проект SCORE проверил тысячи статей по психологии, экономике и социологии. Выводы неутешительные, но не катастрофические.

Завершился проект SCORE (Systematizing Confidence in Open Research and Evidence) — самая масштабная проверка надежности социальных и поведенческих наук.

865 исследователей проанализировали почти 3900 статей, опубликованных с 2009 по 2018 год в 62 журналах по экономике, психологии, социологии, педагогике, политологии и смежным дисциплинам. Результаты вышли в Nature.

Главный вывод: только половина исследований проходит тест на повторяемость. Точнее — 49% из 164 проверенных статей удалось воспроизвести с новыми данными.

Что проверяли

Проект оценивал три параметра.

Повторяемость (replicability) — та же гипотеза, новые данные, новый эксперимент. Самый строгий тест. Успех — 49%.

Воспроизводимость (reproducibility) — те же данные, та же методика, другой исследователь. Точное совпадение — 54%, приблизительное — 74%. Проблема: данные были открыты только у четверти статей. Когда данные и код доступны, показатель точной воспроизводимости вырастает до 77%.

Устойчивость (robustness) — те же данные, но разные аналитики используют разные методы. В 74% случаев хотя бы один метод подтвердил исходный вывод. Но все пять методов сошлись только в 34% случаев. В 2% работ разные методы пришли к противоположным выводам.

Можно ли предсказать надежность?

Ученые искали маркеры, которые заранее указывали бы на надежность работы — количество цитирований, престиж журнала, наличие ограничений в тексте. Не нашли.

Единственный фактор, который коррелировал с воспроизводимостью — открытый доступ к данным и коду.

Брайан Носек, директор Центра открытой науки и лидер проекта: «Нужно гораздо больше доказательств, прежде чем мы будем уверены в каком-то масштабном решении».

Что это значит

Провал репликации не означает, что исходное исследование было неверным. Это означает, что к отдельной работе стоит относиться как к фрагменту доказательств, а не как к окончательной истине.

Экономист Абель Бродер, основатель Institute for Replication: «Я всегда скептически отношусь к свежим публикациям. Я подожду несколько лет, пока не выйдет множество других исследований с похожими результатами, и только тогда начну доверять».

Исследователи SCORE надеются, что их работа подтолкнет к реформам: более широкому внедрению открытых данных, предварительной регистрации протоколов и систематическим попыткам репликации в разных областях.

psyjack.ru

Половина результатов социальных наук воспроизводится