Хорошо, вы находитесь в отделении неотложной помощи и осматриваете пациента, поступившего с острой одышкой. Это может быть пневмония, это может быть обострение ХОБЛ, это может быть сердечная недостаточность. Вы смотрите на рентгеновский снимок, чтобы помочь поставить свой диагноз — скажем, ХОБЛ, — а затем, прежде чем начать назначать соответствующее лечение, вы видите всплывающее окно в электронной медицинской карте — дружелюбного помощника ИИ, который говорит что-то вроде “Я почти уверен, что это сердечная недостаточность”.
Что вы делаете?
Этот сценарий ближе, чем вы думаете. Фактически, подобные сценарии уже происходят в системах здравоохранения по всей стране, иногда в рамках пилотных программ, иногда с более полноценной интеграцией. Но суть остается неизменной: в какой-то момент ИИ будет “помогать” клиницистам ставить диагнозы.
В чем проблема с прогнозами ИИ? Ну, люди часто жалуются, что это “черный ящик” — конечно, он может сказать мне, что считает диагноз сердечной недостаточностью, но я не знаю, ПОЧЕМУ он так думает. Чтобы ИИ хорошо работал с клиницистами, он должен объясняться сам.
Но новое исследование предполагает, что “объяснимость” прогнозов ИИ не имеет большого значения в том, как врачи его используют. На самом деле, это может усугубить ситуацию.
Мы говорим об этом исследовании, опубликованном в JAMA, в котором используется очень умный подход к выяснению того, как ИИ помогает — или препятствует — диагностическим способностям врача.
457 врачам-госпиталистам было представлено множество клинических описаний, очень похожих на ту, с которой я начал, — пациента с острой одышкой. У них был доступ ко всем деталям, истории болезни и, что важно, рентгенограмме грудной клетки.
Документы прошли 8 тестов по различным сценариям. Один был без какой—либо помощи ИИ - просто для получения базовой точности диагностики. Самостоятельно документы подтвердили правильность примерно в 73% случаев.
Вот тут-то и начинается интересное. Затем у команды было четыре условия для ИИ. Во-первых, относительно точный ИИ, который не давал объяснений своему мышлению. Во-вторых, добавлен тот же искусственный интеллект, но с пояснениями — в данном случае бликами на рентгенограмме грудной клетки. В—третьих, предвзятый ИИ - он всегда диагностировал бы у людей сердечную недостаточность, например, если их ИМТ превышал 30, — без объяснений. И, в-четвертых, тот же предвзятый ИИ, но предоставляющий объяснение.
Надежда, ожидание здесь заключается в том, что принуждение предвзятого ИИ к объяснению самого себя помогло бы клиницистам осознать, что оно было предвзятым. Объяснимость становится функцией безопасности модели ИИ. Сработало ли это?
Позвольте мне показать вам пару примеров. Здесь у нас есть точный ИИ, который смотрит на рентгеновский снимок и определяет, в данном случае правильно, что у пациента сердечная недостаточность.
Важно, что модель демонстрирует свою работу — она выделяет ту часть рентгенограммы грудной клетки, которая заставляет думать, что продолжается сердечная недостаточность, и мы, клиницисты, можем сказать — конечно, это имеет смысл. Отек легких у основания легких.
Вот предвзятая модель, довольно точно предсказывающая, что у пациента пневмония. Но объяснение далеки от истины. Она выделяет часть сердца и грудную стенку — не лучшие места для диагностики пневмонии. Клиницисты должны быть в состоянии сразу распознать, что модель дает сбои. Но так ли это?
Точность диагностики клиницистов незначительно повысилась, когда точный искусственный интеллект давал рекомендации, и немного больше улучшений наблюдалось, когда рекомендации сопровождались объяснениями.
Их производительность существенно снизилась, когда предвзятый ИИ дал совет.
Это первый тревожный вывод данного исследования. Это напоминает нам, что искусственный интеллект может быть полезен, когда дело доходит до диагностики, но последствия плохого или предвзятого искусственного интеллекта могут быть намного хуже, чем преимущества хорошего искусственного интеллекта.
Можем ли мы снизить риск предвзятого алгоритма ИИ, заставив его включать эти объяснения — проигнорируют ли клиницисты плохие советы?
Не совсем. Диагностическая точность клиницистов по-прежнему снижалась, когда предвзятая модель объясняла саму себя. По большому счету, наличие объяснений не действовало как предохранительный клапан против предвзятой модели ИИ.
Это должно касаться всех нас. По мере того, как модели ИИ внедряются на практике, для всех нас очень разумно требовать, чтобы они были точными. Но правда в том, что ни одна модель не идеальна, и ошибки будут всегда. Добавление “объяснимости” в качестве метода уменьшения влияния этих ошибок кажется отличной идеей, но эмпирические данные, по крайней мере, этого исследования, предполагают, что это далеко не решение.