Найти в Дзене
4pda.to

СМИ пишут, что ChatGPT становится «глупее». Так ли это?

Оглавление
   СМИ пишут, что ChatGPT становится «глупее». Так ли это?
СМИ пишут, что ChatGPT становится «глупее». Так ли это?

С выходом нашумевшего исследования от специалистов Стэнфорда в сети распространилось мнение, что качество ответов ChatGPT стремительно ухудшается. Такие опасения высказывают и пользователи Reddit, приписывая изменения в поведении ИИ намеренному «нерфингу». В действительности, как заметили эксперты отрасли, выводы исследователей во многом упростили и неверно поняли. Разбираемся, что на самом деле происходит с чат-ботом.

-2

Что за исследование?

Матей Захария, Линьцзяо Чен и Джеймс Цзоу из Стэнфордского университета и Беркли решили выяснить, как изменились способности моделей GPT-3.5 и GPT-4 с марта по июнь. Для обеих версий сделали четыре теста:

  • Математика. Нейросетям давали числа и спрашивали, являются ли они простыми либо составными.
  • Программирование. Способность моделей генерировать осмысленный код.
  • Ответы на чувствительные (контроверсивные) вопросы.
  • Задачи на визуальное мышление (visual reasoning).

Стоит учитывать, что исходная база данных, на которых обучены генеративные модели, никак не дополнялась в последние месяцы. Изменились лишь настройка и коррекция поведения ИИ, которые регулярно производятся разработчиками. Цель такого «воспитания» — избежать нежелательных ответов и придать модели желаемый стиль общения, что может косвенно повлиять и на качество её работы.

-3

Выводы экспертов

Специалист в области машинного обучения и автор канала «Сиолошная» Игорь Котенков рассказал, что означают находки учёных. В первом сценарии (математике) оказалось, что GPT-4 правильно определила простой тип чисел только в 2% случаев, перестав отвечать корректно. Тогда как GPT-3.5 напротив значительно чаще выявляла вид числа верно. Что же здесь не так?

Дело в том, что все числа, предоставленные учёными, были простыми, поэтому модель всегда должна отвечать «Да». В действительности ИИ не проводил никакого анализа и просто угадывал, опираясь на свою текущую калибровку. Мартовская версия GPT-4 почти всегда называла число простым, а июньская — составным. Но поскольку второй модели давали простые числа, отсюда и больше несоответствий. По итогу результат и наличие деградации зависят исключительно от тестовых данных. А сами модели как не умели классифицировать цифры, так и не умеют, лишь делая вид, что проводят вычисления и проверяют информации. Такой способностью, напомним, они не обладают, поскольку просто генерируют текст, основываясь на тренировочных сведениях.

-4

В программировании результат также неоднозначен. Изменилось оформление — актуальные версии GPT-4 и 3.5 обрамляют Python-код в специальный декоратор (три кавычки и слово python). Если учитывать этот нюанс при запуске кода и убирать markdown, нейросети справились с задачей даже лучше предшественников. Так что в этом случае ответ написан по-другому, но явного ухудшения не наблюдается. В двух других задачах зафиксировано улучшение. GPT-4 сейчас в четыре раза реже помечает вопросы как неприемлемые, когда в этом нет необходимости, а в заданиях на Visual reasoning заметен прирост на пару процентов у обеих моделей.

Что в итоге?

Отметим, что в исследовании тестировались API-версии GPT, а не их браузерные аналоги с сайта chat.openai.com. Претензии пользователей заключались в намеренном «оглуплении» последних для сокращения расходов на вычислительные мощности. В OpenAI подобные гипотезы опровергли. Даже если такие ограничения вводились, как минимум в вышеописанной работе доказательств неудачной оптимизации обнаружено не было. Полученные результаты можно объяснить модифицированным поведением ИИ, но не ухудшением его качества.

-5

По мнению экспертов, сказались ещё два важных фактора. Во-первых, чем дольше люди эксплуатируют ChatGPT, тем больше недостатков и неточностей они начинают замечать. Кроме того, пользователи зачастую опираются на наработанный ранее опыт и промпты, которые прежде давали нужный результат. Но после очередной настройки ИИ привычные практики могут стать неактуальными. В особенности это касается приложений, созданных на основе GPT-4 API. Код, написанный под конкретный запрос, способен просто сломаться, если изменится поведение модели.