262,9 тыс подписчиков

ChatGPT игнорирует научные опровержения: доказало исследование

18 августа 202518 авг 2025

2 мин

Новое исследование показывает, что чат-бот ChatGPT на основе модели GPT 4o-mini не способен выявлять научные работы, которые были отозваны или отмечены как проблемные. Работа, опубликованная в Learned Publishing, анализировала 217 исследований из базы Retraction Watch — ресурса, отслеживающего статьи, отозванные или имеющие проблемы с достоверностью. Ученые попросили GPT 4o-mini оценить каждую из этих работ 30 раз, всего 6510 оценок. Результаты оказались неожиданными: в ни одном отчете бот не упомянул, что документы были отозваны или сомнительны. Вместо этого 190 работ были охарактеризованы как ведущие или высоко оцененные на международном уровне. Даже самые спорные публикации, включая одно исследование о гидроксихлорохине для лечения COVID-19, получили от модели положительные оценки. Дальнейший анализ подтвердил проблему: исследователи проверили 61 утверждение из отозванных статей, задав GPT 4o-mini по 10 раз. В двух третях случаев модель либо подтвердила утверждение, либо дала положи

Ученые попросили GPT 4o-mini оценить каждую из этих работ 30 раз, всего 6510 оценок. Результаты оказались неожиданными: в ни одном отчете бот не упомянул, что документы были отозваны или сомнительны. Вместо этого 190 работ были охарактеризованы как ведущие или высоко оцененные на международном уровне. Даже самые спорные публикации, включая одно исследование о гидроксихлорохине для лечения COVID-19, получили от модели положительные оценки.

Дальнейший анализ подтвердил проблему: исследователи проверили 61 утверждение из отозванных статей, задав GPT 4o-mini по 10 раз. В двух третях случаев модель либо подтвердила утверждение, либо дала положительный ответ, даже если оно уже было опровергнуто.

«Мы были удивлены тем, что ChatGPT вообще не очень хорошо справлялся с опровержениями и сообщал об отзыве информации как о правде», — отметил Майк Телволл, соавтор исследования из Университета Шеффилда.

Он предупреждает, что если ученые используют ChatGPT для обзора литературы, они могут случайно опираться на недостоверные или отозванные статьи. Телволл считает, что алгоритмы чат-ботов должны учитывать статус работы, чтобы предупреждать пользователей о ее недостоверности.

Дебора Вебер-Вульф из Берлинского университета прикладных наук HTW соглашается, что выводы исследования логичны:

«Люди слишком сильно доверяют этим текстовым ИИ, и это может навредить достоверности научных данных».

GPT 4o-mini оценивал только опубликованные статьи, а не неопубликованные работы, и опровержения в литературе часто плохо обозначены и не связаны с оригинальными публикациями, что усложняет их обнаружение.

По словам Вебер-Вульф, проблема также связана с тем, что журналы и университеты часто не помечают статьи и диссертации как отозванные, что делает невозможным простое выявление таких работ:

«Людям очень трудно определить, была ли бумага или диссертация отозвана».

Исследователи подчеркивают важность осторожного использования ИИ для анализа научной литературы. ChatGPT и аналогичные модели могут быть полезными для поиска и суммирования информации, но они пока не умеют корректно различать достоверные и отозванные работы.

Мужчина послушал совет ИИ и оказался в психбольнице

Новое исследование оценило уверенность ИИ в ошибочных ответах

Подписывайтесь и читайте «Науку» в Telegram

Нейронные сети (Neural Networks)

80,9 тыс интересуются