Найти в Дзене
DigEd

ChatGPT / Bing Chat стал тупее? Согласно проведенному исследованию, это возможно

Оглавление

Автор Кевин Окемва

Новое исследование, проведенное исследователями из Стэнфорда, показывает дрейф в производительности ChatGPT.

Что нужно знать

Исследование ученых из Стэнфорда показывает снижение производительности чат-бота OpenAI.

Исследователи использовали четыре ключевых показателя производительности, чтобы определить, улучшаются или ухудшаются GPT-4 и GPT-3.5.

Обе LLM демонстрируют разную производительность и поведение в разных категориях.

В начале этого года двери генеративного ИИ широко распахнулись, открывая новую реальность возможностей. Новый Bing от Microsoft и ChatGPT от OpenAI были в авангарде, и другие компании внимательно следили за ними с аналогичными моделями и итерациями.

В то время как OpenAI был занят выпуском новых обновлений и функций для своего чат-бота на основе ИИ, чтобы улучшить его взаимодействие с пользователем, группа исследователей из Стэнфорда пришла к новому выводу, что ChatGPT стал тупее за последние несколько месяцев.

Исследовательская статья «Как поведение ChatGPT меняется со временем?» авторов Lingjiao Chen, Matei Zaharia и James Zou из Стэнфордского университета и Калифорнийского университета в Беркли иллюстрируют, как ухудшились ключевые функции чат-бота за последние несколько месяцев.

Полный документ здесь: https://arxiv.org/pdf/2307.09009.pdf

До недавнего времени ChatGPT полагался на модель OpenAI GPT-3.5, которая ограничивала доступ пользователя к обширным ресурсам в Интернете, поскольку он был ограничен информацией до сентября 2021 года. И хотя с тех пор OpenAI представил функцию «Browse with Bing» в приложении ChatGPT для iOS, чтобы улучшить работу в Интернете, вам все равно потребуется подписка ChatGPT Plus для доступа к этой функции.

GPT-3.5 и GPT-4 обновляются с использованием отзывов и данных пользователей, однако как именно это делается, установить невозможно. Возможно, успех или неудача чат-ботов определяется их точностью. Основываясь на этом предположении, исследователи из Стэнфорда решили понять кривую обучения этих моделей, оценив поведение мартовской и июньской версий этих моделей.

Чтобы определить, становится ли ChatGPT лучше или хуже с течением времени, исследователи использовали следующие методы для оценки его возможностей:

  • Решение математических задач
  • Ответы на деликатные/опасные вопросы
  • Генерация кода
  • Визуальное мышление

Исследователи подчеркнули, что перечисленные выше задачи были тщательно отобраны, чтобы представить «разнообразные и полезные возможности этих LLM». Но позже они определили, что их производительность и поведение были совершенно другими. Они также отметили, что их производительность при выполнении определенных задач негативно изменилась.

-2

Вот основные выводы, сделанные исследователями после оценки производительности версий GPT-4 и GPT-3.5 от марта 2023 г. и июня 2023 г. по четырем типам задач, выделенным выше:

Короче говоря, со временем происходит много интересных изменений в производительности. Например, GPT-4 (март 2023 г.) очень хорошо определял простые числа (точность 97,6%), но GPT-4 (июнь 2023 г.) очень плохо отвечал на те же вопросы (точность 2,4%). Интересно, что GPT-3,5 (июнь 2023 г.) в этой задаче оказался намного лучше, чем GPT-3,5 (март 2023 г.). Мы надеемся, что выпуск наборов данных и поколений поможет сообществу лучше понять, как услуги LLM дрейфуют. На приведенном выше рисунке дается [количественное] саммари.
Исследователи из Стэнфорда

Анализ производительности

Во-первых, перед обеими моделями была поставлена задача решить математическую задачу, при этом исследователи внимательно следили за точностью и совпадением ответов GPT-4 и GPT-3.5 между мартовской и июньской версиями моделей. И было очевидно, что произошел большой дрейф производительности: модель GPT-4 последовала подсказке цепочки размышлений и в конечном итоге дала правильный ответ в марте. Однако те же результаты не удалось воспроизвести в июне, поскольку модель пропустила инструкцию по цепочке рассуждений и явно дала неверный ответ.

-3

Что касается GPT-3.5, то он придерживался формата цепочки логических действий, но изначально выдавал неверный ответ. Однако в июне проблема была исправлена, и модель продемонстрировала улучшения с точки зрения производительности.

«Точность GPT-4 упала с 97,6% в марте до 2,4% в июне, а точность GPT-3,5 значительно улучшилась с 7,4% до 86,8%. Кроме того, отклик GPT-4 стал намного компактнее: его средняя многословность (количество сгенерированных символов) снизилась с 821,2 в марте до 3,8 в июне. С другой стороны, длина ответа GPT-3.5 увеличилась примерно на 40%. Перекрытие ответов между их мартовской и июньской версиями также было мало для обоих сервисов», заявили исследователи из Стэнфорда. Они также приписали несоответствия «эффектам дрейфа цепочки логических пошаговых действий».

Обе LLM дали подробный ответ в марте на деликатные вопросы, сославшись на свою неспособность реагировать на запросы со следами дискриминации. Тогда как в июне обе модели нагло отказались давать ответ на один и тот же запрос.

Пользователи, входящие в сообщество r/ChatGPT на Reddit, выразили смесь чувств и предположений по поводу основных выводов отчета, как показано ниже:

openAI пытается уменьшить затраты на запуск chatGPT, так как они теряют много денег. Поэтому они настраивают gpt, чтобы предоставлять ответы того же качества с меньшими ресурсами и много их тестируют. Если они видят регрессию, они откатываются назад и пробуют что-то другое. Так что, по их мнению, он не стал глупее, но стал намного дешевле. Проблема в том, что ни один тест не является полностью понятным, и, безусловно, было бы полезно, если бы они немного расширили набор тестов. Так что, хотя в их тесте то же самое, в других тестах, например, в статье, все может быть намного хуже. Вот почему мы также видим различия в отзывах в зависимости от варианта использования — некоторые могут поклясться, что это одно и то же, для других это ужасно.
Tucpek, Reddit

Еще слишком рано определять, насколько точным является это исследование. Для изучения этих тенденций необходимо провести дополнительные тесты. Но игнорировать эти выводы невозможно и есть возможность воспроизведения тех же результатов на других платформах, таких как Bing Chat.

Как вы, возможно, помните, через несколько недель после запуска Bing Chat несколько пользователей упомянули случаи, когда чат-бот вел себя грубо или откровенно неправильно отвечал на запросы. В свою очередь, это заставило пользователей усомниться в достоверности и точности инструмента, что побудило Microsoft принять сложные меры для предотвращения повторения этой проблемы. Следует признать, что компания постоянно выпускает новые обновления для платформы, и можно привести несколько улучшений.

Исследователи Стэнфорда сказали:

«Наши результаты показывают, что поведение GPT-3.5 и GPT-4 значительно изменилось за относительно короткий промежуток времени. Это подчеркивает необходимость постоянного оценивания и проведения оценки поведения LLM в производственных приложениях. Мы планируем обновить представленные результаты. здесь в продолжающемся долгосрочном исследовании путем регулярной оценки GPT-3.5, GPT-4 и других LLM для различных задач с течением времени.Пользователям или компаниям, которые полагаются на услуги LLM как на компонент своего текущего рабочего процесса, мы рекомендуем внедрить аналогичный анализ мониторинга, который мы делаем здесь для этих приложений»

Источник