Недавнее исследование в Nature Machine Intelligence показало, что новые модели машинного обучения, устанавливающие диагноз COVID-19 на основе данных рентгенограмм и компьютерной томографии грудной клетки, не могут быть использованы в клинике, поскольку имеют серьезные методологические недостатки и систематические ошибки.
Машинное обучение – многообещающий метод для обнаружения и прогнозирования заболеваний. Методы машинного обучения, которые объединяют различные типы данных, включая изображения, с крупными электронными базами данных о здоровье, могут улучшить диагностику и прогнозирование индивидуальных реакций на лечение и сделать медицину более персонализированной.
Исследователями были проанализированы статьи, посвященные разработке методов машинного обучения, опубликованные или ожидающие печати в период с января до октября 2020 года. Было найдено 2212 исследований, из которых всего 62 были включены в обзор.
«Международное сообщество машинного обучения приложило огромные усилия для борьбы с пандемией COVID-19 с помощью машинного обучения», – говорит доктор Джеймс Радд, исследователь медицинского факультета Кембриджа. «Эти ранние исследования выглядят многообещающими, но они страдают от высокой распространенности недостатков в методологии и отчетности, и ни один из рассмотренных нами литературных источников не достиг порога надежности и воспроизводимости, необходимого для поддержки использования в клинической практике».
«Любой алгоритм машинного обучения хорош настолько, насколько хороши данные, на которых он обучается», – говорит доктор Майкл Робертс из Кембриджского отделения прикладной математики и теоретической физики. «Особенно для новой болезни, такой как COVID-19, жизненно важно, чтобы данные обучения были как можно более разнообразными, потому что, как мы видели на протяжении всей этой пандемии, существует множество различных факторов, которые влияют на то, как болезнь проявляется и как она ведет себя».
Авторы статьи указывают, что одной из причин невозможности применения описанных моделей в клинике являются систематические ошибки в небольших наборах данных.
«В первые дни пандемии был такой информационный голод, и некоторые публикации, несомненно, выпускались в спешке», – комментирует Радд. «Но, если вы основываете свою модель на данных из одной больницы, она может не работать на данных из больницы в соседнем городе: данные должны быть разнообразными и в идеале международными, иначе вы настраиваете свое машинное обучение так, что модель потерпит неудачу при более широких испытаниях».
Еще одной проблемой была вариабельность больших наборов данных из международных источников или применение так называемых «наборов данных Франкенштейна». Благодаря широкому использованию данные в них эволюционировали и объединились таким образом, что сделали невозможным воспроизведение первоначальных результатов.
Важным недостатком многих исследований было отсутствие участия радиологов и клиницистов для интерпретации результатов. «Независимо от того, используете ли вы машинное обучение для прогнозирования погоды или того, как болезнь может прогрессировать, очень важно убедиться, что разные специалисты работают вместе и говорят на одном языке, чтобы можно было сосредоточить внимание на правильных проблемах», – комментирует Робертс.
В целом ученые отметили, что в исследованиях обнаруживались многочисленные методологические недостатки, а также авторы субъективно оценивали собственные результаты. Все это привело к тому, что выводы разработчиков о возможности применения моделей в клинических исследованиях, были излишне оптимистичными.
Несмотря на это, ученые отмечают, что внесение некоторых ключевых изменений, позволит искусственному интеллекту стать мощным инструментом в борьбе с пандемией. Авторы рекомендуют использовать для машинного обучения разнообразные массивные наборы данных, чтобы модели могли быть полезными для различных демографических групп, воздержаться от использования общедоступных наборов и объективно оценивать полученные результаты.