Регуляторы отрасли здравоохранения в развитых странах все более быстрыми темпами выдает разрешения на использование инструментов искусственного интеллекта (artificial intelligence, AI): от инструментов компьютерного зрения для выявления потенциальных случаев тромбоэмболии легочной артерии по результатам компьютерной томографии до выявления рака легких на ранней стадии. Однако в процессе получения разрешения отсутствует критически важная информация, которая позволила бы оценить, как эти устройства на самом деле работают при лечении пациентов.
Обзор 130 систем искусственного интеллекта, получивших разрешение на применение от FDA (U.S. Food and Drug Administration, Управление по санитарному надзору за качеством пищевых продуктов и медикаментов), опубликованный в журнале Nature, показал, что почти все они были основаны на ретроспективных данных. В большинстве случаев также не сообщается, сколько медицинских организаций было использовано для оценки устройства (системы) на базе искусственного интеллекта, и тестировались ли они на предмет того, как они работают у пациентов разных рас, полов или мест проживания.
Большинство систем с искусственным интеллектом, прошедших сертификацию, появились относительно недавно, и FDA все еще разрабатывает правила их оценки. Из 150 решений, оцененных исследователями, 75% были сертифицированы в течение последних двух лет, а более половины из них - только в прошлом году.
Большинство исследований были ретроспективными
Одним из самых больших недостатков исследований систем, прошедших проверку, является то, что в подавляющем большинстве из них использовались только ретроспективные данные, то есть большинство данных уже было собрано до того, как модель оценивалась. Из 130 систем 126 были одобрены на основе ретроспективных данных.
Это важно, потому что большинство AI-систем, получивших допуск, были разработаны для работы в качестве систем сортировки или поддержки принятия решений врачей. Необходимо провести проспективное* исследование, чтобы выяснить, как они на самом деле работают с системами данных врачей и больниц. Например, игнорируют ли врачи предупреждения или слишком полагаются на них?
Такое рандомизированное исследование может показать, что врачи неправильно используют этот инструмент для первичной диагностики и что результаты отличаются от ожидаемых, если бы инструмент использовался для поддержки принятия решений. В разных больницах также используются разные способы обработки данных, что может повлиять на эффективность модели в реальном мире.
Большинство разработчиков не сообщили о количестве испытательных площадок
Другой ключевой недостаток заключается в том, что большинство компаний не сообщили, в скольких медицинских организациях проводились испытания AI-систем. Из общего числа только 41 компания, предоставившая информацию о системах, прошедших сертификацию FDA, сообщила, в скольких медицинских центрах проводилась оценка алгоритма, и эти цифры не слишком обнадеживают. Четыре устройства были оценены только в одной больнице, а восемь - только в двух больницах.
Небольшое количество испытательных площадок имеет большое значение для определения того, насколько хорошо работают AI-инструменты. Возможно, даже больше, чем для других типов медицинского оборудования, поскольку системы на базе машинного обучения формируются на основе данных, используемых для их обучения.
Хотя данные о количестве испытательных площадок может быть доступны регуляторам, отсутствие публично раскрытой информации не помогает врачам, исследователям или больницам оценить потенциальный инструмент.
Также неясно, сколько пациентов участвовало в тестировании алгоритма. Из 71 систем, о которых была предоставлена такая информация, компании оценивали свои решения в среднем на 300 пациентах.
Различия между медицинскими организациями могут привести к различиям в работе с пациентами
Зачастую сообщается только одно число для общей эффективности алгоритма. Это может скрыть множество потенциальных уязвимостей в том, как модель работает с различными группами пациентов.
Чтобы проверить это, исследователи создали три собственные AI-модели для сортировки потенциальных случаев пневмоторакса по рентгеновским снимкам, поскольку в настоящее время существует четыре таких модели, которые были одобрены FDA.
Они взяли изображения из трех общедоступных наборов данных рентгеновских снимков грудной клетки из больниц в разных местах США и использовали данные из каждого медицинского центра для обучения трех различных моделей глубокого обучения и оценили их на данных из двух других сайтов.
Когда модели были протестированы на другом объекте, они обнаружили значительное снижение эффективности моделей по всем показателям.
Эти различия отражают не только разную практику больниц, но и демографические характеристики пациентов. Например, они обнаружили значительное различие между показателями моделей для белых и чернокожих пациентов при тестировании на другом участке.
Рекомендации
Самой большой рекомендацией для компаний, создающих эти алгоритмы, было бы проведение большего количества проспективных испытаний.
Исследователи также рекомендовали производителям тестировать свои алгоритмы в большем количестве разнообразных медицинских организаций, особенно для систем с высоким риском.
Исследователи также создают основу для тестирования устройств с искусственным интеллектом после их развертывания, чтобы определить, насколько хорошо они работают. Например, если в больнице существенно меняется контингент пациентов (скажем, из-за пандемии), или если меняются сами рентгеновские аппараты, это может повлиять на работу модели.
* Проспективное исследование - исследование, в котором группа, сформированная в настоящее время, прослеживается в будущем (группу наблюдения формируют до того, как наступили исходы).
#ИСКУССТВЕННЫЙИНТЕЛЛЕКТ
Источник: MedCity News