Наука давно превратилась в религию для атеистов, только вот у этой религии серьёзные проблемы с чудесами — большинство из них не повторяются. В 2005 году эпидемиолог Джон Иоаннидис опубликовал статью с убийственным названием «Почему большинство опубликованных результатов исследований ложны», и академический мир вежливо сделал вид, что ничего не заметил. Прошло почти двадцать лет, а ситуация только ухудшилась. Мы живём в эпоху, когда доверие к науке парадоксальным образом растёт вместе с количеством научного мусора, который производится в промышленных масштабах. Каждый день выходят тысячи статей, каждая претендует на открытие, прорыв или как минимум на «статистически значимый результат».
Но что стоит за этими красивыми словами? Часто — ничего, кроме карьерных амбиций, хитроумных манипуляций со статистикой и издательского давления. Кризис воспроизводимости — это не досадная техническая неполадка в научной машине. Это системная гниль, которая разъедает фундамент современного знания. И если вы думаете, что это касается только каких-то абстрактных физиков или социологов, то у меня для вас плохие новости: лекарства, которые вы принимаете, диеты, которым следуете, и даже психологические советы, которые читаете — всё это может быть построено на песке недоказанных и невоспроизводимых экспериментов.
Анатомия научного самообмана
Давайте разберёмся, что вообще означает этот загадочный «кризис воспроизводимости». Суть проста до неприличия: если вы провели эксперимент и получили результат, то другой учёный, повторив ваш эксперимент в тех же условиях, должен получить тот же результат. Звучит как базовый здравый смысл, верно? Вот только на практике это работает примерно так же хорошо, как обещания политиков перед выборами.
В 2011 году фармацевтический гигант Bayer провёл внутреннюю проверку: взял шестьдесят семь «прорывных» исследований в области онкологии и попытался их воспроизвести. Результат? Только около четверти удалось подтвердить. Три четверти якобы научных открытий оказались пшиком. Компания Amgen пошла ещё дальше — из пятидесяти трёх landmark-исследований в онкологии воспроизвести удалось всего шесть. Шесть из пятидесяти трёх! Это не статистическая погрешность. Это катастрофа.
Психология пострадала особенно сильно. Проект Open Science Collaboration в 2015 году попытался воспроизвести сто психологических исследований, опубликованных в топовых журналах. Меньше половины показали те же результаты. Половина! И это не какие-то сомнительные работы из третьесортных изданий — это сливки научной мысли, статьи из журналов, на которые молятся студенты и преподаватели. Получается, что мы годами учили будущих психологов теориям, которые просто не работают. Прекрасно, не правда ли?
Но вот что действительно пугает: это не ошибка, а система. Наука не просто случайно ошибается — она систематически производит ложь, потому что вся её инфраструктура заточена под производство «результатов», а не под поиск истины.
P-hacking — алхимия XXI века
Добро пожаловать в мир p-hacking, где статистика превращается в послушную служанку, готовую подтвердить что угодно. Для начала — краткий ликбез. В статистике есть такая штука, как p-value — вероятность получить ваш результат случайно, если на самом деле никакого эффекта нет. Традиционно порогом считается p < 0.05, то есть менее пяти процентов вероятности случайного результата. Звучит строго? На практике это превратилось в карнавал абсурда.
Представьте: вы исследователь, вам нужна публикация, у вас есть данные. Вы анализируете их так — p-value 0.12. Не подходит. Ладно, давайте уберём пару «выбросов» из данных — вдруг они портят картину? О, теперь 0.08. Уже теплее. А что если разделить участников по полу и посмотреть только на женщин? Бинго — 0.04! Статистически значимо! Можно публиковать!
Это не выдуманный сценарий — это повседневная реальность научных лабораторий по всему миру. Исследователи называют это «гибким анализом данных» или «исследовательским анализом». На нормальном языке это означает пытки данных до тех пор, пока они не признаются в том, что вам нужно. P-hacking принимает множество форм: остановка сбора данных, когда результат стал «значимым»; выбор из множества зависимых переменных той, что дала нужный p-value; исключение «неудобных» наблюдений; добавление или удаление ковариат из модели.
Самое дикое — технически каждый из этих шагов можно оправдать. Всегда найдётся рационализация: выбросы искажают картину, подгруппы важны для понимания, предварительная гипотеза же была. Но в совокупности эти «невинные» манипуляции превращают статистический анализ в самоисполняющееся пророчество. Вы заранее знаете, что хотите найти, и находите — потому что достаточно долго ищете в достаточно разных местах.
Есть замечательная симуляция, показывающая, что при достаточном количестве «степеней свободы исследователя» можно получить статистически значимый результат практически для любой бессмыслицы. Учёные это продемонстрировали буквально — опубликовали исследование о том, что прослушивание определённой песни делает человека моложе. Физически моложе. И да, p < 0.05.
Publication bias — редакторы хотят крови
P-hacking — это только половина проблемы. Вторая половина — publication bias, систематическое предпочтение журналами «положительных» результатов. Представьте себе такую картину: вы потратили два года на изучение связи между употреблением черники и памятью. Провели строгий эксперимент, собрали данные, всё сделали по правилам. Результат: черника не влияет на память. Никак. Ноль эффекта.
Что дальше? А дальше вы обнаруживаете, что ни один приличный журнал не хочет это публиковать. Редакторы вежливо отвечают, что результат «не представляет достаточного интереса для наших читателей». Переводя с академического: «Нам нужны сенсации, а не скучная правда». И ваше исследование отправляется в так называемый file drawer — метафорический ящик стола, куда складываются все «неинтересные» результаты.
Проблема в том, что этот эффект накапливается. Опубликованная литература систематически завышает размер эффектов, потому что все «нулевые» результаты остаются в ящиках. Метаанализ видит только верхушку айсберга — те исследования, где случайно или намеренно получился «значимый» результат. И делает выводы на основе этой искажённой выборки.
Это создаёт порочный круг. Молодой исследователь читает литературу, видит: черника улучшает память (три исследования из трёх!). Пытается воспроизвести — не получается. Думает, что он что-то делает неправильно. Не догадывается, что те три исследования — это выжившие из двадцати попыток, остальные семнадцать лежат в файловых ящиках по всему миру.
Журналы прекрасно знают о проблеме. Некоторые даже создали специальные секции для «нулевых результатов». Но престиж по-прежнему приносят сенсации. Nature и Science не станут всемирно известными, публикуя статьи «Мы проверили — ничего не работает». Система кормится новизной и драмой, а правда — она скучная.
Publish or perish — система пожирает своих детей
Теперь давайте посмотрим на корень проблемы. Почему умные, образованные, часто искренне любящие науку люди занимаются этим безобразием? Ответ прост и циничен: потому что система не оставляет им выбора.
Publish or perish — «публикуйся или погибай» — это не метафора. Это буквальное описание академической карьеры. Хотите получить постоянную позицию? Публикации. Хотите грант на исследования? Публикации. Хотите, чтобы ваша лаборатория выжила? Публикации. И не просто публикации, а публикации в «высокоимпактных» журналах, которые, как мы уже выяснили, предпочитают сенсации.
Молодой постдок работает по семьдесят часов в неделю за зарплату, которой хватает на съёмную комнату и макароны. У него контракт на три года, за которые нужно опубликовать достаточно статей, чтобы получить следующий контракт. Или постоянную позицию. Или хоть что-то. А конкурс — сотни заявок на одно место. В таких условиях соблазн «немного подтолкнуть» данные в нужную сторону становится практически непреодолимым.
И давайте будем честны: большинство из тех, кто этим занимается, не считают себя мошенниками. Они искренне верят, что их гипотеза верна, данные просто «зашумлены», а небольшая «очистка» — это нормальная часть научного процесса. Когнитивные искажения работают безотказно: мы видим то, что хотим видеть, особенно когда от этого зависит наша карьера и кусок хлеба.
Грантовая система усугубляет проблему. Чтобы получить финансирование, нужно пообещать конкретные результаты. Не «мы исследуем и посмотрим, что получится», а «мы докажем, что X влияет на Y». После чего учёный оказывается в ловушке: грант получен, деньги потрачены, а X на Y не влияет. Что делать? Признать провал и забыть о следующем гранте? Или… немного поработать со статистикой?
Цена лжи в белых халатах
Всё это было бы забавным академическим анекдотом, если бы не реальные последствия. А они есть, и они чудовищны. Начнём с медицины — области, где невоспроизводимые результаты убивают буквально. Сколько лекарств одобрено на основании исследований, которые не воспроизводятся? Сколько терапий назначается пациентам, потому что «в исследованиях показана эффективность» — исследованиях, которые не прошли бы проверку на воспроизводимость?
Есть оценки, что до восьмидесяти пяти процентов медицинских исследований — это потраченные впустую деньги, потому что результаты либо неприменимы, либо невоспроизводимы, либо и то, и другое. Миллиарды долларов, годы работы тысяч людей — всё уходит в песок. А потом мы удивляемся, почему лечение рака так медленно прогрессирует.
Психология и социальные науки тоже не отстают. Помните все эти популярные психологические концепции, которые расходились по бизнес-тренингам и книгам по саморазвитию? «Сила воли — ограниченный ресурс» — не воспроизводится. «Позы силы повышают уверенность» — не воспроизводится. «Эффект прайминга на поведение» — под большим вопросом. Целые индустрии коучинга и корпоративного обучения построены на фундаменте из исследований, которые, возможно, никогда не были правдой.
И вот здесь мы подходим к самому болезненному. Доверие. Когда люди узнают о кризисе воспроизводимости, реакция бывает двух типов. Первый: «Видите, вся эта ваша наука — ерунда, верьте интуиции и традициям». Второй: «Ну, учёные разберутся, не наше дело». Оба ответа — катастрофа. Первый ведёт к антивакцинаторству и плоскоземельцам. Второй — к слепой вере в любой мусор с биркой «научно доказано».
Правильный ответ сложнее и требует усилий: научиться критически относиться к исследованиям, понимать их ограничения, требовать прозрачности и воспроизводимости. Но кто на это готов, когда TikTok уже объяснил всё за тридцать секунд?
Когда честность станет выгодной
Есть ли свет в конце туннеля? Кое-что меняется, хотя медленнее, чем хотелось бы. Движение за открытую науку набирает обороты. Препринты позволяют публиковать результаты до рецензирования, снижая давление журналов. Предрегистрация исследований — когда гипотеза и план анализа фиксируются заранее — делает p-hacking сложнее. Появляются журналы, которые принимают статьи к публикации на основе методологии, до получения результатов.
Но давайте не обманывать себя: эти изменения — капля в море. Пока академическая карьера будет зависеть от количества публикаций в престижных журналах, пока гранты будут требовать «гарантированных результатов», пока сенсации будут цениться выше истины — система продолжит производить красивую, убедительную, статистически значимую ложь.
Возможно, нам нужна более радикальная реформа. Отделить оценку учёных от количества публикаций. Финансировать исследователей, а не проекты. Создать реальные стимулы для воспроизведения чужих работ, а не только для производства «новых открытий». Признать, что нулевой результат — это тоже результат, и иногда более ценный, чем очередная «сенсация».
А пока — читайте научные новости со здоровым скептицизмом. Помните, что «учёные обнаружили» часто означает «один учёный, одно исследование, небольшая выборка, ещё не воспроизведено». И главное — не переставайте верить в науку как метод. Кризис воспроизводимости — это не провал научного метода. Это провал институтов, которые должны были этот метод защищать. Метод работает. Люди и системы — не всегда.
Наука остаётся лучшим инструментом познания мира, который у нас есть. Просто этот инструмент нуждается в срочной калибровке. И первый шаг — признать проблему. Что мы сейчас и сделали.