3640 подписчиков

ChatGPT отупел за четыре месяца в ключевых задачах. Математика ухудшилась на 95,2%

Группа исследователей из трёх человек, куда вошли Линцзяо Чен, Матей Захария и Джеймс Цзоу, решила выяснить, как меняется производительность и точность работы популярных на сегодняшний день чат-ботов GPT-3.5 и GPT-4.

Оценивалась работа ИИ-моделей в период с марта по июнь 2023 года по четырём направлениям: решение математических задач, ответы на деликатные/опасные вопросы, генерация кода и визуальное мышление. Результаты исследования показали, что точность и производительность чат-ботов меняется со временем не в лучшую сторону.

Так, например, в марте 2023 года чат-бот CPT-4 решал математические задачи с точностью 97,6%. В июне эта цифра катастрофически рухнула до 2,4%. У GPT-3.5, наоборот, точность в июне выросла по соотношению к мартовским показателям — с 7,4% до 86,8%.

В июне GPT-4 менее охотно отвечал на деликатные вопросы, чем в марте. Также в этом месяце наблюдается больше ошибок при генерации кода. Это утверждение справедливо для обеих ИИ-моделей. Если в марте чат-бот GPT-4 справился с 50% из 50 предложенных задач LeetCode, то в июне ИИ смог осилить только 10%.

В итоге, авторы исследования заявили, что поведение чат-ботов может очень сильно меняться за относительно короткий промежуток времени, поэтому необходим постоянный контроль за качеством работы алгоритмов искусственного интеллекта.

ChatGPT отупел за четыре месяца в ключевых задачах.

1 минута

20 июля 2023

5572 читали