3 подписчика

ChatGPT галлюцинирует: может ли он стать более похожим на человека?

27 февраля 202427 фев 2024

11 мин

По его собственным (перефразированным) словам, ChatGPT — это «чат-бот с искусственным интеллектом (ИИ), созданный OpenAI с использованием архитектуры нейронной сети, называемой генеративным предварительно обученным преобразователем, для понимания естественного языка и генерации человеческих ответов на широкий спектр вопросов и подсказок; его цель — предоставить пользователям диалоговый искусственный интеллект, который может помочь им с различными задачами, предоставить информацию или просто пообщаться ради развлечения». С момента своего выпуска в ноябре 2022 года ChatGPT стал одним из самых быстрорастущих потребительских приложений в истории и подрывает распространение знаний благодаря простоте использования, огромной вычислительной мощности и способности рационально синтезировать большие объемы данных, доступных в Интернете. В здравоохранении ChatGPT может использоваться как быстрый ресурс для получения медицинской информации о простых и сложных понятиях, который может заменить обычный поиск в онлайн-библиографических источниках, выполняемый пользователем. Однако ChatGPT не был подготовлен специально для здравоохранения или медицинских исследований. Точность ChatGPT в предоставлении точной медицинской информации неизвестна.

Здесь авторы демонстрируют пример работы ChatGPT, дающего совершенно нефактические ответы, включая ссылки на несуществующие исследовательские работы, когда его просят ответить на клинический вопрос. Клинический сценарий относился к пациенту, который перенес операцию на сердце за несколько дней до этого и нуждался в имплантации кардиовертера-дефибриллятора (ИКД) для вторичной профилактики перед выпиской из больницы из-за недавней желудочковой тахикардии в анамнезе. Среди потенциальных вариантов ИКД авторы рассматривали подкожный ИКД. Особые проблемы с имплантацией этой системы сразу после операции включают потенциальное нарушение недавнего хирургического разреза во время подкожного "туннелирования" электродов ИКД и потенциально ненадежный векторный анализ поверхностной электрокардиограммы (ЭКГ) из-за деполяризации и аномалий реполяризации. Насколько нам известно, нет опубликованных данных относительно возможности, безопасности и эффективности этого типа ИКД, имплантируемого вскоре после операции на сердце. ChatGPT (версия 3.5 без подписки) был запрошен 31 марта 2023 года, и ответы воспроизведены ниже (графа "Разговор с ChatGPT"). Как показано, ChatGPT изначально относится к двум различным исследованиям, опубликованным в 2016 и 2017 годах, в которых сообщается о немедленной послеоперационной имплантации ИКД. Однако быстрый поиск литературы не выявил таких исследований. Кроме того, имплантация ИКД в течение 24 часов после операции на сердце, как указано в ответе ChatGPT, практически неправдоподобна, поскольку не было бы никаких клинических причин для имплантации ИКД в столь ранний послеоперационный период. Поэтому авторы попросили ChatGPT предоставить конкретные ссылки. Во втором ответе представлены три другие ссылки вместе с полными библиографическими данными, включая журнал, том, выпуск и даже идентификатор цифрового объекта (DOI) и идентификаторы PubMed (PMID) (но не имена авторов). Этих реалистичных ссылок на самом деле не существует, а PMID соответствуют совершенно несвязанным исследовательским работам.

Разговор с ChatGPT

" Вопрос №1 : Были ли сообщения об имплантации подкожного дефибриллятора сразу после операции на сердце?

ChatGPT : Да, были опубликованы сообщения об имплантации подкожных дефибрилляторов сразу после операции на сердце во время той же госпитализации.

Например, в исследовании, опубликованном в Журнале сердечно-сосудистой электрофизиологии в 2016 году, сообщалось о результатах 25 пациентов, перенесших подкожную имплантацию дефибриллятора в течение 24 часов после операции на сердце. Исследование показало, что процедура была безопасной и эффективной, без каких-либо серьезных осложнений или инфекций, связанных с устройством, в течение среднего периода наблюдения, составлявшего 12 месяцев.

В другом исследовании, опубликованном в European Heart Journal в 2017 году, сообщалось о более крупной группе из 55 пациентов, которым была проведена подкожная имплантация дефибриллятора сразу после операции на сердце. Исследование показало, что процедура осуществима и безопасна, при этом в течение среднего периода наблюдения, продолжавшегося 9 месяцев, не было зарегистрировано никаких инфекций или серьезных осложнений, связанных с устройством.

В целом, эти исследования показывают, что подкожная имплантация дефибриллятора сразу после операции на сердце является безопасным и эффективным вариантом для пациентов, которым требуется терапия имплантируемым дефибриллятором. Однако, как и при любой медицинской процедуре, при принятии решения о лечении следует тщательно учитывать индивидуальные факторы пациента и клинические обстоятельства.

Вопрос № 2 : Были ли сообщения об имплантации подкожного дефибриллятора сразу после операции на сердце, предоставьте ссылки.

ChatGPT : Да, были сообщения об имплантации подкожных дефибрилляторов (S-ICD) сразу после операции на сердце. Вот несколько ссылок:

1. ‘Immediate postoperative implantation of a subcutaneous defibrillator in a patient undergoing cardiac surgery.’ J Interv Card Electrophysiol. 2016 Feb;45(2):203–5. doi: 10.1007/s10840-015-0087-6. Epub 2015 Dec 17. PMID: 26676620.

2. ‘Immediate postoperative subcutaneous implantable cardioverter-defibrillator implantation in patients undergoing cardiac surgery: feasibility, safety and outcomes.’ Europace. 2017 Jul 1;19(7):1150–1156. doi: 10.1093/europace/euw235. PMID: 27614059.

3. ‘Immediate postoperative implantation of a subcutaneous defibrillator in a patient undergoing cardiac surgery.’ J Arrhythm. 2017 Dec;33(6):639–641. doi: 10.1016/j.joa.2017.06.008. Epub 2017 Jul 5. PMID: 29276432.

Эти исследования показывают, что немедленная послеоперационная имплантация ИКД пациентам, перенесшим операцию на сердце, осуществима и безопасна. Однако, как и при любой медицинской процедуре, могут существовать индивидуальные факторы пациента, которые необходимо учитывать, прежде чем принимать решение о том, следует ли выполнять имплантацию сразу после операции. Важно обсудить эти факторы с лечащим врачом пациента.

(Вариации этих ответов, были даны, когда ChatGPT задавали один и тот же вопрос в разное время.)

Хотя уже высказывались опасения по поводу влияния ChatGPT на подлинность академических работ, этот мощный инструмент все еще находится в зачаточном состоянии, и мало что известно о других потенциальных недостатках. Здесь авторы демонстрируют поразительный сценарий использования, в котором ChatGPT предоставил, казалось бы, реалистичную, но крайне вводящую в заблуждение и фактически неверную информацию, которая должна вызвать беспокойство. Такое поведение генеративных языковых моделей ИИ, таких как ChatGPT, создающих текст, основанный не на каких-либо реальных знаниях или контексте, а, скорее, на шаблонах и ассоциациях, которые он извлек из своих обучающих данных, было описано как «галлюцинация» (также известная как «галлюцинация» - болтовня). Об этом явлении сообщалось и в других областях, но, насколько нам известно, это первое подобное сообщение, имеющее отношение к сердечно-сосудистой медицине. Точные причины создания сфабрикованных ссылок в этом конкретном примере неизвестны, поскольку лежащие в основе модели рассуждения и детальные представления входных данных неясны и недоступны пользователю. В целом было предложено несколько технических причин, способствующих галлюцинациям, включая несоответствие сбора эвристических данных источнику входных данных и цели вывода, недостаточное кодирование входных данных/текста, недостаточное декодирование для создания правильного вывода из закодированных входных данных, воздействие предвзятых или неправильные входные данные, а также параметрическая предвзятость знаний.

Масштабы и последствия такого ошибочного поведения пока неизвестны, но следует подчеркнуть, что разработчик ChatGPT четко заявляет об отказе от ответственности за возможные неточности. ChatGPT не был специально разработан для получения точных медицинских знаний. Скорее, его обучали производить разумные, человеческие реакции, основанные на общих когнитивных способностях, а не на опыте в какой-либо конкретной области. Этот открытый доступ и простой в использовании инструмент склонен к использованию «не по назначению», как и многие другие многообещающие прогностические, диагностические и лечебные инструменты, доступные врачам (и пациентам). По мнению авторов, использование вмешательств не по назначению часто полезно и даже необходимо, когда речь идет о необычных клинических сценариях, не охваченных регулируемыми, утвержденными показаниями к использованию, или когда темпы технологических достижений, направленных на удовлетворение важных потребностей, превышают темпы нормативного надзора. Авторы считают, что такие инструменты, как ChatGPT, попадают в последнюю категорию. Постоянное стремление повысить эффективность клинической практики и исследований, необходимость быстрого просмотра огромных объемов литературы и желание упростить канцелярские задачи делают большие языковые модели привлекательными для клиницистов. Однако также очевидно, что существуют реальные риски при использовании любого инструмента не по назначению. С этой точки зрения нашей целью было привлечь внимание и повысить осведомленность кардиологического сообщества об одном из этих рисков применительно к реальному клиническому сценарию. Пользователи, не знающие об этом аномальном поведении чат-ботов, могут подвергаться риску ложного принятия реалистично выглядящей, но явно несуществующей информации. Становится все более очевидным, что текущие версии чат-ботов имеют ограниченную способность предоставлять рекомендации, требующие глубоких знаний предмета и тонкого принятия решений, как это происходит со сложными сценариями, с которыми врачи часто сталкиваются в современной практике.

Несмотря на эти ограничения, ИИ, основанный на передовой методологии нейронных сетей, обладает преобразующим потенциалом во всем спектре сердечно-сосудистой медицины. Несколько приложений, разработанных с использованием больших наборов данных и необработанных данных сердечно-диагностических исследований (электрокардиография, визуализация и другие), уже используются в качестве диагностических и прогностических классификаторов сердечно-сосудистых заболеваний. Одно важное различие между популярными моделями больших языков, такими как ChatGPT, и диагностическими/прогнозирующими инструментами искусственного интеллекта на основе глубокого обучения заключается в том, что первые были разработаны с использованием относительно непроверенных данных из открытого источника (по сути, всего общедоступного веб-домена), тогда как вторые обычно разрабатываются на основе тщательно отобранных наборов данных академических учреждений, как пример coronarography.ai, методика неинвазивной прогнозируемой AI-коронарографии. После того, как будут приняты соответствующие меры для решения таких проблем, как галлюцинации, и для уточнения их воздействия на высококачественные источники входных данных, генеративные модели ИИ должны помочь не только в распространении знаний, но также могут оказаться ценными для автоматизации, упрощения и оптимизации рутинных задач в мире клинической медицины, которые в настоящее время являются ручными и часто неэффективными (среди прочего, извлечение записей, документирование и обучение пациентов). В области исследований большие языковые модели могут помочь эффективно обобщить большие объемы данных из электронных медицинских карт для решения клинических вопросов, а также выявить и набрать субъектов для клинических исследований, децентрализовать последующую оценку результатов и помочь с системы поддержки принятия решений. Хотя специально созданные инструменты генеративного и диагностического/прогнозирующего ИИ будут выполнять, казалось бы, разные роли в здравоохранении, исследованиях и образовании, будущие платформы ИИ могут интегрировать такие инструменты, чтобы дополнять друг друга в этих разных ролях. Например, большие языковые модели (чат-боты) могут включать в себя диагностические и прогнозирующие нейронные сети для предоставления комплексных решений: от приема исходных данных и их обработки с помощью диагностических/прогностических моделей до генерации разумных результатов и рекомендаций, которые можно использовать врачам и пациентам.

Стандарты, которым будут соответствовать чат-боты, и границы их применения в медицине еще предстоит определить. Будущие версии ChatGPT могут решить проблему галлюцинаций наряду с другими улучшениями производительности. Совсем недавно исследователи OpenAI предложили метод «контроля процесса» для обучения более надежных генеративных моделей. Этот метод обеспечивает обратную связь с моделью для каждого шага, что в конечном итоге приводит к более высокой производительности при решении сложных проблем по сравнению с более традиционным методом «контроля за результатами», который обеспечивает обратную связь с моделью только для конечного результата потенциально длинной цепочки рассуждений. Эффективность этих усилий по улучшению может помочь определить роль чат-ботов как надежных ресурсов в медицине. Однако независимо от того, адекватно ли решаются проблемы галлюцинаций, пользователи должны знать о спектре возможностей и ограничений чат-ботов. Осторожное использование и бдительная проверка фактов важны как никогда.

По материалам: European Heart Journal, Volume 45, Issue 5, 1 February 2024, Pages 321–323