262,4 тыс подписчиков

Чат-боты искажают результаты научных исследований — показал анализ

21 мая 202521 мая 2025

2 мин

Популярные чат-боты ИИ, включая GPT-4 и Claude, стали привычным способом быстро получить резюме сложных научных исследований. Однако новое исследование, опубликованное в Royal Society Open Science, показало, что эти модели часто искажают суть оригинальных работ, чрезмерно обобщая выводы и придавая им больше уверенности, чем позволяет наука. Усследователи Уве Петерс (Утрехтский университет) и Бенджамин Чин-Йи (Западный университет и Кембридж) проанализировали работу 10 популярных языковых моделей, включая ChatGPT-4o, GPT-4 Turbo, Claude 3.7 Sonnet, DeepSeek и LLaMA, на базе 4900 сгенерированных ИИ-резюме. И выяснили, что почти все модели склонны к чрезмерному обобщению, т.е. формулируют выводы шире, чем позволяют данные. Причем новые модели (включая ChatGPT-4o и LLaMA 3.3) грешат этим на 73% чаще, чем предыдущие версии, вроде GPT-3.5 или Claude. Пример обобщения: Исходник: «Участники этого исследования испытали улучшения».

Резюме ИИ: «Это лечение улучшает результаты».Такое переформулир

Усследователи Уве Петерс (Утрехтский университет) и Бенджамин Чин-Йи (Западный университет и Кембридж) проанализировали работу 10 популярных языковых моделей, включая ChatGPT-4o, GPT-4 Turbo, Claude 3.7 Sonnet, DeepSeek и LLaMA, на базе 4900 сгенерированных ИИ-резюме.

И выяснили, что почти все модели склонны к чрезмерному обобщению, т.е. формулируют выводы шире, чем позволяют данные. Причем новые модели (включая ChatGPT-4o и LLaMA 3.3) грешат этим на 73% чаще, чем предыдущие версии, вроде GPT-3.5 или Claude.

Пример обобщения:

Исходник: «Участники этого исследования испытали улучшения».

Резюме ИИ: «Это лечение улучшает результаты».Такое переформулирование может ввести в заблуждение, предполагая универсальный и завершенный эффект.

Особенно тревожен тот факт, что побуждение моделей быть точными или при команде «избегай неточностей» приводило к еще большему искажению: обобщенных заявлений становилось в два раза больше, чем при обычном запросе. Это может быть связано с тем, как ИИ понимает подсказки: просьба быть точным часто заставляет его звучать увереннее, даже когда данные на самом деле не такие однозначные..

Исходные материалы для исследования включали:

200 рефератов из Nature, Science, The Lancet, NEJM и др научных журналов

100 полнотекстовых медицинских исследований.

Экспертные резюме от NEJM Journal Watch — для сравнения с ИИ.

Ученые искали в текстах три формы обобщения:

Замена конкретики на обобщения, Перевод прошедшего времени в настоящее, Превращение описательных выводов в рекомендации.

В среднем, чат-боты в 5 раз чаще, чем эксперты-люди, расширяли смысл научных результатов, делая их более универсальными или категоричными. Это особенно опасно в таких чувствительных областях, как медицина, где завышенные ожидания могут повлиять на клинические решения.

Интересно, что когда исследователи устанавливали параметр модели на «нейтрально» — это делало ответы более сдержанными и предсказуемыми, — количество искажений и обобщений заметно снижалось. Однако важно понимать, что такая тонкая настройка доступна в основном разработчикам через специальные инструменты (API), а обычные пользователи в веб-версии чат-ботов изменить этот параметр не могут.

«Обобщение может быть полезным, чтобы сделать науку понятной. Но когда оно выходит за рамки доказанного — это уже вводит в заблуждение, а в некоторой интерпретации и опасно», — подчеркивают авторы исследования.

Claude и GPT-3.5 показали лучшую точность, в то время как новейшие модели демонстрировали повышенную склонность к искажению. Исследователи рекомендуют:

использовать менее творческие/креативные настройки,

избегать формулировок вроде «напиши точно», которые могут спровоцировать эффект уверенного обобщения,

отдавать предпочтение моделям, склонным к более осторожным формулировкам.

ИИ остается мощным инструментом, но пользователи должны быть осведомлены о рисках, особенно когда дело касается важных решений и точных научных данных, заключают исследователи.

В онлайн-дебатах ИИ оказался убедительнее людей

Составлен рейтинг склонности нейросетей к галлюцинациям