Популярные чат-боты ИИ, включая GPT-4 и Claude, стали привычным способом быстро получить резюме сложных научных исследований. Однако новое исследование, опубликованное в Royal Society Open Science, показало, что эти модели часто искажают суть оригинальных работ, чрезмерно обобщая выводы и придавая им больше уверенности, чем позволяет наука. Усследователи Уве Петерс (Утрехтский университет) и Бенджамин Чин-Йи (Западный университет и Кембридж) проанализировали работу 10 популярных языковых моделей, включая ChatGPT-4o, GPT-4 Turbo, Claude 3.7 Sonnet, DeepSeek и LLaMA, на базе 4900 сгенерированных ИИ-резюме. И выяснили, что почти все модели склонны к чрезмерному обобщению, т.е. формулируют выводы шире, чем позволяют данные. Причем новые модели (включая ChatGPT-4o и LLaMA 3.3) грешат этим на 73% чаще, чем предыдущие версии, вроде GPT-3.5 или Claude. Пример обобщения: Исходник: «Участники этого исследования испытали улучшения».
Резюме ИИ: «Это лечение улучшает результаты».Такое переформулир