Когда 70 независимым командам было поручено проанализировать идентичные изображения мозга, ни одна из двух команд не выбрала один и тот же подход, и их выводы были сильно различны.
В ходе проверки научной воспроизводимости нескольким группам экспертов по нейровизуализации со всего мира было предложено независимо проанализировать и интерпретировать один и тот же набор данных функциональной магнитно-резонансной томографии. Результаты теста, опубликованные в журнале Nature сегодня (20 мая), показывают, что каждая команда проводила анализ в несколько иной манере и что их выводы в результате менялись. Выделяя причину невоспроизводимости-человеческие методологические решения, - в статье также раскрываются способы защиты будущих исследований от нее.
“Это знаковое исследование, которое ясно демонстрирует то, что многие ученые подозревали: выводы, сделанные в нейровизуализационном анализе, очень чувствительны к выбору, который исследователи делают в отношении того, как анализировать данные”, - пишет Джон Иоаннидис, эпидемиолог из Стэнфордского университета, в электронном письме ученому. Иоаннидис, известный сторонник повышения научной строгости и воспроизводимости, не участвовал в исследовании (его собственная работа недавно была обвинена в плохой методологии в исследовании серопревалентности антител к SARS-CoV-2 в округе Санта-Клара, Калифорния).
Проблемы воспроизводимости затрагивают все области науки, и они были особенно освещены в области психологии и рака в рамках проектов, частично осуществляемых центром открытой науки. Теперь нейровизуализация оказалась в центре внимания благодаря совместному проекту экспертов по нейровизуализации во всем мире под названием Neuroimaging Analysis Replication and Prediction Study (NARPS).
Нейровизуализация, в частности функциональная магнитно-резонансная томография (фМРТ), которая производит картины паттернов кровотока в головном мозге, которые, как полагают, связаны с нейронной активностью, в прошлом подвергалась критике за такие проблемы, как плохой дизайн исследования и статистические методы, а также уточнение гипотез после того, как результаты известны (шулерство), говорит невролог Ален Дагер из Университета Макгилла, который не участвовал в исследовании. Особенно запоминающейся критикой этого метода была статья, демонстрирующая, что без необходимых статистических поправок он может идентифицировать видимую мозговую активность у мертвой рыбы.
Возможно, из-за такой критики, в настоящее время фМРТ “является областью, которая, как известно, имеет много осторожности в отношении статистики и . . . о размерах выборки”, - говорит нейробиолог том Шонберг из Тель-Авивского университета, автор статьи и сокоординатор NARPS. Кроме того, в отличие от многих областей биологии, добавляет он, анализ изображений является вычислительным, а не ручным, поэтому можно ожидать, что в него будет вползать меньше предубеждений.
Поэтому Шонберг был немного удивлен, увидев результаты НАРП, признав: "было нелегко видеть эту изменчивость, но это было то, что было.”
Исследование, проведенное Шонбергом совместно с психологом Расселом Полдраком из Стэнфордского университета и статистиком по нейровизуализации Томасом Николсом из Оксфордского университета, привлекло независимые группы исследователей по всему миру для анализа и интерпретации одних и тех же необработанных данных нейровизуализации—сканирования мозга 108 здоровых взрослых, сделанных в то время, когда испытуемые находились в состоянии покоя и выполняли простую задачу принятия решения о том, стоит ли рисковать суммой денег.
Исследователи набирали команды через социальные сети и объявления на конференциях, говорит Шенберг, добавляя, что реакция была удивительной. “Когда у нас было 70 команд, мы подумали: "Вау, это сильное сообщество, которое хочет знать, что происходит и как мы можем улучшить ситуацию. ’”
Независимые исследователи имели доступ не только к необработанным данным изображений, но и к полным деталям экспериментального проекта и протоколов. Им было предложено проверить девять конкретных гипотез—каждая из которых касалась того, коррелирует ли увеличение или уменьшение активности в определенной области мозга с определенным решением.
Каждая из 70 исследовательских групп, принимавших участие в исследовании, использовала один из трех различных программных пакетов для анализа изображений. Но вариации в конечных результатах не зависели от этих вариантов программного обеспечения, говорит Николс. Вместо этого они свелись к многочисленным этапам анализа, каждый из которых требует решения человека, например, как исправить движение головы испытуемых, как улучшить соотношение сигнал-шум, насколько сильно сглаживать изображение-то есть насколько строго определены анатомические области мозга—и какие статистические подходы и пороги использовать.
“Существует слишком много решений, которые необходимо принять, чтобы проанализировать эти данные, и неудивительно, что все эти 70 команд сделали что-то другое и часто приходили к совершенно другим выводам”, - пишет Иоаннидис.
Исследование “действительно важно", - говорит Роланд Хэнкок, исследователь нейролингвистики из Университета Коннектикута, который возглавлял одну из 70 групп, анализирующих данные. - Это говорит о проблемах воспроизводимости и о том, откуда берется эта изменчивость: о непреднамеренных степенях свободы, которые мы имеем в нашем анализе.”
Некоторые результаты были в значительной степени последовательными. Например, 84 процента участников согласились с тем, что данные, подтверждающие гипотезу 5—предсказание, связывающее потерю активности в вентромедиальной префронтальной коре с потерей денег, —значительны. И более 90 процентов команд обнаружили, что три другие гипотезы были незначительными. Но по остальным пяти гипотезам выводы команд были разными.