134 подписчика
CHATGPT ОТУПЕЛ ЗА ЧЕТЫРЕ МЕСЯЦА В КЛЮЧЕВЫХ ЗАДАЧАХ. МАТЕМАТИКА УХУДШИЛАСЬ НА 95,2%
Такое исследование может сильно подорвать популярность чат-ботов, которые в последнее время итак стали чуть менее востребованными
Группа исследователей из трёх человек, куда вошли Линцзяо Чен (Lingjiao Chen), Матей Захария (Matei Zaharia) и Джеймс Цзоу (James Zou), решила выяснить, как меняется производительность и точность работы популярных на сегодняшний день чат-ботов GPT-3.5 и GPT-4.
Оценивалась работа ИИ-моделей в период с марта по июнь 2023 года по четырём направлениям: решение математических задач, ответы на деликатные/опасные вопросы, генерация кода и визуальное мышление. Результаты исследования показали, что точность и производительность вышеуказанных чат-ботов меняется со временем. И не в лучшую сторону.
Так, например, в марте 2023 года чат-бот CPT-4 решал математические задачи с точностью 97,6%. В июне эта цифра катастрофически рухнула до 2,4%. У GPT-3.5, наоборот, точность в июне выросла по соотношению к мартовским показателям — с 7,4% до 86,8%.
В июне GPT-4 менее охотно отвечал на деликатные вопросы, чем в марте. Также в этом месяце наблюдается больше ошибок при генерации кода. Это утверждение справедливо для обеих ИИ-моделей. Если в марте чат-бот GPT-4 справился с 50% из 50 предложенных задач LeetCode, то в июне ИИ смог осилить только 10%.
В итоге, авторы исследования заявили, что поведение чат-ботов может очень сильно меняться за относительно короткий промежуток времени, поэтому необходим постоянный контроль за качеством работы алгоритмов искусственного интеллекта.
1 минута
24 июля 2023