71,9 тыс подписчиков

Чат-боты с ИИ регулярно преувеличивают значимость научных открытий

14 мая 202514 мая 2025

2 мин

При обобщении научных исследований большие языковые модели, такие как ChatGPT и DeepSeek, выдают неточные выводы в 73% случаев, показало исследование. Исследователи протестировали 10 разных версий больших языковых моделей ChatGPT, DeepSeek, Llama и Claude для создания краткого резюме научных исследований. Большинство моделей регулярно делали более широкие выводы, чем авторы работ. При этом если модели в запросе просили избегать неточностей, уровень искажений в ответах чат-ботов возрастал. Исследование оценивало, насколько точно искусственный интеллект резюмирует краткие обзоры и статьи из ведущих научных и медицинских журналов, включая Nature, Science и The Lancet. Тестируя модели в течение года, ученые собрали 4900 рефератов, сгенерированных чат-ботами. Анализ показал, что шесть из десяти моделей систематически преувеличивали утверждения из исходных текстов, как правило, используя широкие обобщения. Например, осторожное заявление авторов «Лечение было эффективным в этом исследовании»

При обобщении научных исследований большие языковые модели, такие как ChatGPT и DeepSeek, выдают неточные выводы в 73% случаев, показало исследование.

Исследователи протестировали 10 разных версий больших языковых моделей ChatGPT, DeepSeek, Llama и Claude для создания краткого резюме научных исследований. Большинство моделей регулярно делали более широкие выводы, чем авторы работ. При этом если модели в запросе просили избегать неточностей, уровень искажений в ответах чат-ботов возрастал.

Исследование оценивало, насколько точно искусственный интеллект резюмирует краткие обзоры и статьи из ведущих научных и медицинских журналов, включая Nature, Science и The Lancet. Тестируя модели в течение года, ученые собрали 4900 рефератов, сгенерированных чат-ботами. Анализ показал, что шесть из десяти моделей систематически преувеличивали утверждения из исходных текстов, как правило, используя широкие обобщения.

Например, осторожное заявление авторов «Лечение было эффективным в этом исследовании» заменялось на однозначный вариант «Лечение является эффективным». Подобные обобщения могут ввести читателей в заблуждение, заставив их поверить, что результаты применимы в широком контексте ситуаций.

Удивительно, но когда ученые попросили чат-боты избегать неточностей, модели почти в два раза чаще стали делать чрезмерно абстрактные выводы. Исследователи также сравнили резюме одних и тех же статей, созданные чат-ботами и людьми. Неожиданно оказалось, что чат-боты почти в пять раз чаще выдавали широкие обобщения.

Этот эффект вызывает беспокойство. Студенты, исследователи и политики предполагают, что если они попросят ChatGPT избегать неточностей, то получат более надежное резюме. Наши результаты доказывают обратное.

Уве Петерс, соавтор исследования из Утрехтского университета

Примечательно, что новые модели ChatGPT, DeepSeek и Llama допускали больше неточностей, чем предыдущие версии. При этом меньше всего искажений было в отчетах Claude 3.7 Sonnet от компании Anthropic. Ученые рекомендуют пользователям внимательно подбирать подсказки, которые помогут получить менее искаженный вариант, а разработчикам тестировать модели на предмет некорректных обобщений при работе с научной информацией.

Читать далее:

Физики исполнили мечту алхимиков: свинец в коллайдере превратили в золото

Ученые решили проблему, которая мешала запуску термоядерных реакторов почти 70 лет

Вирус-вымогатель впервые встроили прямо в процессор. Удалить его невозможно

На обложке: Изображение от freepik, лицензия