134 подписчика

CHATGPT ОТУПЕЛ ЗА ЧЕТЫРЕ МЕСЯЦА В КЛЮЧЕВЫХ ЗАДАЧАХ. МАТЕМАТИКА УХУДШИЛАСЬ НА 95,2%

Такое исследование может сильно подорвать популярность чат-ботов, которые в последнее время итак стали чуть менее востребованными

Группа исследователей из трёх человек, куда вошли Линцзяо Чен (Lingjiao Chen), Матей Захария (Matei Zaharia) и Джеймс Цзоу (James Zou), решила выяснить, как меняется производительность и точность работы популярных на сегодняшний день чат-ботов GPT-3.5 и GPT-4.

Оценивалась работа ИИ-моделей в период с марта по июнь 2023 года по четырём направлениям: решение математических задач, ответы на деликатные/опасные вопросы, генерация кода и визуальное мышление. Результаты исследования показали, что точность и производительность вышеуказанных чат-ботов меняется со временем. И не в лучшую сторону.

Так, например, в марте 2023 года чат-бот CPT-4 решал математические задачи с точностью 97,6%. В июне эта цифра катастрофически рухнула до 2,4%. У GPT-3.5, наоборот, точность в июне выросла по соотношению к мартовским показателям — с 7,4% до 86,8%.

В июне GPT-4 менее охотно отвечал на деликатные вопросы, чем в марте. Также в этом месяце наблюдается больше ошибок при генерации кода. Это утверждение справедливо для обеих ИИ-моделей. Если в марте чат-бот GPT-4 справился с 50% из 50 предложенных задач LeetCode, то в июне ИИ смог осилить только 10%.

В итоге, авторы исследования заявили, что поведение чат-ботов может очень сильно меняться за относительно короткий промежуток времени, поэтому необходим постоянный контроль за качеством работы алгоритмов искусственного интеллекта.

#Новости #IT #CHATGPT #AI #ИИ

1 минута

24 июля 2023