При обобщении научных исследований большие языковые модели, такие как ChatGPT и DeepSeek, выдают неточные выводы в 73% случаев, показало исследование. Исследователи протестировали 10 разных версий больших языковых моделей ChatGPT, DeepSeek, Llama и Claude для создания краткого резюме научных исследований. Большинство моделей регулярно делали более широкие выводы, чем авторы работ. При этом если модели в запросе просили избегать неточностей, уровень искажений в ответах чат-ботов возрастал. Исследование оценивало, насколько точно искусственный интеллект резюмирует краткие обзоры и статьи из ведущих научных и медицинских журналов, включая Nature, Science и The Lancet. Тестируя модели в течение года, ученые собрали 4900 рефератов, сгенерированных чат-ботами. Анализ показал, что шесть из десяти моделей систематически преувеличивали утверждения из исходных текстов, как правило, используя широкие обобщения. Например, осторожное заявление авторов «Лечение было эффективным в этом исследовании»
Чат-боты с ИИ регулярно преувеличивают значимость научных открытий
14 мая 202514 мая 2025
2
2 мин