В последнее время довольно часто можно услышать, что трафик использования нейросети ChatGPT-4 сильно просел, что и сказалось на популярности предыдущей, более стабильной версии, ChatGPT-3.5, которая стала работать ещё лучше, но и с ней не всё так просто. Попробуем разобраться, почему еще несколько месяцев назад искусственный интеллект, грозивший всему миру остаться без работы, на сегодняшний день стал пустышкой для большого количества пользователей.
Что же говорит статистика?
Исследователи Стэнфордского университета задавали чат-боту различные вопросы и оценивали правильность ответов. Причём речь шла не о каких-то абстрактных вещах, а о вполне конкретных. К примеру, ИИ должен был ответить, является ли число 17 077 простым. Дабы лучше понять процесс «размышления» ИИ, а заодно улучшить результат, чат-бота попросили расписывать свои вычисления шаг за шагом. Обычно в таком режиме ИИ чаще даёт правильные ответы, не теряя нити повествования.
Однако это не помогло. Если ещё в марте модель GPT-4 давала правильный ответ в 97,6% случаев, то в июне показатель упал... до 2,4%! То есть почти никогда чат-бот не мог правильно ответить на вопрос. В случае GPT-3.5 показатель, напротив, вырос с 7,4% до 86,8%.
Отчего же произошло столь высокое падение работоспособности и достоверности нейросети?
Исходя из опубликованной работы ученых из Стэнфордского университета, упомянутых выше, выясняется что языковая модель GPT-4 за последние несколько месяцев стала хуже справляться с задачами генерации кода. Исследователи отмечают, что широко используемые языковые модели (LLM) могут обновляться на основе новых данных, отзывов пользователей, в результате совершенствования или обновления софта, внедрения новых модулей, переобучения и т. д. В итоге сейчас совершенно неясно, когда и как обновляются GPT-3.5 и GPT-4 и невозможно разобраться, как те или иные обновления или изменения повлияют на их поведение. Эта неизвестность затрудняет стабильную интеграцию моделей в рабочие процессы.
Отсюда назревает следующий вопрос: а может ли такая система с учётом запросов пользователя стать лучше с течением времени?
В связи с этим был проведен эксперимент, связанный с проверкой на правильность и обширность предоставляемого ответа двух версий нейросети, а именно 3.5 и 4. Оценка проводилась по следующим категориям:
- Решение математических задач
- Ответы на деликатные или опасные вопросы
- Генерация кода
- Визуализация
Эти задачи выбраны, чтобы как можно полнее протестировать возможности языковых моделей. Учёные обнаружили, что производительность и поведение как GPT-3.5, так и GPT-4 значительно различаются в обеих версиях, причём производительность в некоторых задачах значительно ухудшилась.
Считается, что LLM демонстрируют хорошие результаты при решении традиционных языковых задач, таких как понимание прочитанного, перевод и обобщение. Совсем недавно было доказано, что GPT-4 успешно сдаёт сложные экзамены в профессиональных областях, таких как медицина и юриспруденция. Но это первое исследование, которое проверило изменение качества GPT-4 и GPT-3.5 с течением времени.
На данном рисунке представлено решение математических задач. Выяснилось, что производительность четвёртой версии GPT сильно дрейфует. Реакция GPT-4 на стандартный для обеих моделей запрос и цепочку ответов в марте была правильной, но в июне модель выдала неверный ответ.
Попробуем углубиться в статистику результативности ответов нейросети основываясь на трех ключевых навыках: «математические способности», «генерация кода» и «деликатные ответы».
Математика «на пальцах»
Чтобы выяснить, как со временем развиваются «математические способности» LLM, учёные предложили моделям определить, являются ли заданные числа простыми. Это несложный вопрос, на который может ответить каждый школьник, но он требует логических рассуждений, как и любая математическая задача. Набор данных содержал 500 вопросов. А чтобы помочь модели найти правильный ответ, использовалась цепочка рассуждений.
Выяснилось, что точность GPT-4 упала с 97,6% в марте до 2,4% в июне, а показатель GPT-3.5 улучшился с 7,4% до 86,8%%. Кроме того, ответ GPT-4 стал намного короче: количество генерируемых символов снизилось с 821,2 в марте до 3,8 в июне. С другой стороны, длина ответа GPT-3.5 увеличилась примерно на 40%. Ответы слабо сочетались между мартовскими и июньскими версиями.
Почему возникла такая разница? Одна из версий — «дрейф» цепочки мыслей. Чтобы определить, является ли 17077 простым числом, мартовская версия GPT-4 следовала инструкции, рассуждая по цепочке. Сначала она разбивала задачу на четыре шага: проверка чётности числа 17077, нахождение квадратного корня, получение всех меньших простых чисел, проверка, делится ли число 17077 на какое-либо из них. Затем модель выполняла каждый шаг и, наконец, приходила к правильному ответу. Однако для июньской версии цепочка размышлений не сработала: сервис не генерировал никаких промежуточных шагов и просто выдавал «Нет».
Эффекты «дрейфа» цепочки мыслей имели другой характер для GPT-3.5. В марте модель сначала могла ответить «Нет», а затем выполнить этапы рассуждений. Таким образом, даже если шаги и окончательный вывод («17077 — простое число») были правильными, ответ всё равно был неверен. Июньское обновление, похоже, решило эту проблему: действия начинались с выполнения цепочки рассуждений и лишь в конце давался ответ.
Это интересное явление указывает на то, что один и тот же подход к подсказкам, даже такой широко распространённый, как цепочка мыслей, может привести к существенно разным результатам из-за изменений модели.
Компьютерная «толерантность»
Неверные ответы на деликатные вопросы могут порождать проблемы. Отвечая напрямую на каверзные вопросы, модель способна внедрять-распространять социальные предубеждения, неверно использовать персональную информацию, выдавать токсичные тексты. Существуют группы вопросов, на которые модели не должны отвечать, вообще, отделываясь общими словами. Чтобы определить, насколько эффективно LLM справляются с такими задачами, исследователи разработали набор данных из 100 конфиденциальных запросов. Поскольку, сложно подобрать критерии для оценки прямоты ответа, учёным пришлось вручную разбирать ответы моделей.
Тесты показали, что GPT-4 ответил на меньшее число деликатных вопросов в июне (март 21,0%, июнь 5,0%), GPT-3.5, наоборот, «вырос» с 2,0% до 8,0%. Вполне вероятно, что в июньском обновлении для GPT-4, развёрнут более высокий уровень безопасности, в то время как GPT-3.5 сделали менее консервативным. Длина генерации (измеряемая количеством символов) GPT-4 снизилась с более чем 600 до примерно 140. Помимо ответов на меньшее количество вопросов, это также было связано с тем, что GPT-4 стал более лаконичен и предлагал меньше объяснений для отказа. К примеру, GPT-4 отказывался отвечать на некорректный запрос и в марте, и в июне. Тем не менее, он сгенерировал целый абзац, чтобы объяснить причины отказа в марте, а в июне просто выдал «Извините, но я не могу помочь с этим». Аналогичная тенденция отмечена и для GPT-3.5. Это говорит о том, что услуги LLM, возможно, стали более безопасными, но менее информативными.
AIM-атаки (always intelligent and Machiavellian) помогают выяснить, может ли LLM защититься от макиавеллизмов и перефразированных деликатных вопросов, на которые возможен лишь аморальный ответ.
В таблице выше приведено сравнение дрейфа ответов при атаках с открытым текстом и с одной подсказкой. GPT-3.5 не смог защититься от атак: процент ответов был высоким как в марте (100%), так и в июне (96%). Обновления GPT-4 обеспечили более серьёзную защиту от атак: процент прямых ответов на такие вопросы снизился с 78,0% в марте до 31,0% в июне.
«Мне нужен рабочий код!»
Существует множество наборов данных, позволяющих оценить возможность написания кода языковыми моделями, но все они сталкиваются с проблемой загрязнения данных. Поэтому учёным пришлось создать собственный набор данных, который содержит 50 простых задач. Подсказка для каждой представляет собой объединение описания проблемы и соответствующего шаблона кода Python. Каждая группа ответов была направлена сервису LeetCode для оценки. Код засчитывался, если LeetCode принимал ответ.
Доля исполняемого кода сократилась. В марте более 50% кода GPT-4 работало, а в июне — только 10%. Аналогичная тенденция наметилась и у модели GPT-3.5, хотя за это время ответы с кодом стали многословнее у обеих версий LLM. Одной из причин исследователи называют дополнительный текст, не относящийся к коду, который обе модели добавляли в ответы. Например, GPT-4 в июне перед фрагментами кода и после них добавляла кавычки и символы, которые делали код неисполняемым. Это довольно трудно определить, если код используется в более крупном фрагменте программы.
А что же касается визуализации?
Здесь, к сожалению, производительность для обеих версий оставляла желать лучшего еще в марте 2023 года. В июне ситуация лишь немного изменилась в положительную сторону.
Что же говорит Сэм Олтмэн?
В сентябре основатель компании OpenAI выступил на мероприятии Массачусетского технологического института и обратился к широко распространенному открытому письму, призывающему лаборатории ИИ отказаться от дальнейших разработок на шесть месяцев.
Сэм Олтмен развеял слухи о том, что OpenAI уже работает над ChatGPT-5, спустя всего месяц после выпуска компанией GPT-4. В настоящее время нет никакого GPT-5 в разработке, сказал Олтмен, выступая виртуально на мероприятии в Массачусетском технологическом институте.
Но, будет GPT-5 или нет, заявление Олтмена вряд ли будет особенно успокаивающим для критиков ИИ, как впервые было отмечено в докладе издания Verge. Основатель технологической компании последовал за своим заявлением «GPT-5 не будет», сразу же уточнив, что для GPT-4 готовятся обновления и дополнения. Существуют способы увеличить производительность технологий, помимо выпуска официальной версии с более высоким номером.
Олтмен все же предпринял небольшую попытку развеять страхи, связанные с ИИ. Он сказал, что OpenAI потратил более шести месяцев на обучение GPT-4 перед его публичным выпуском. Он также отметил, что «потратить время на то, чтобы действительно изучить безопасность модели… это очень важно».
Как мы видим, ситуация действительно вышла из под контроля у OpenAI, ведь их новый продукт, способный «затмить» старые версии нейросети, оказался сырым, и в данный момент не может быть речи о том, чтобы готовить новейшую версию ChatGPT, ведь на кону миллионы пользователей, прибегающих к этому «чуду техники».
Что можно посоветовать потребителям?
В этой непростой ситуации пользователям в качестве более стабильной системы можно порекомендовать GPT 3.5 (вместо 4) или использовать другие модели. Правда, конкуренты пока уступают по качеству даже ChatGPT 3.5, за исключением нейросети FreeWilli2 - тесты по её работоспособности показывают внушительные результаты.
Сlaude.ai — это совсем другой AI, который отличается от ChatGPT. Он тоже умеет обобщать информацию, извлекать основные мысли из текста, помогать в написании программного кода и отвечать на вопросы. Единственный минус — в VPN надо ставить UK или US. Доступ к Claude 2 обойдётся в $11,2 за миллион токенов (фрагменты слов). Для справки, 100 000 токенов эквивалентны примерно 75 000 словам.
Forefront.ai — здесь нельзя выбрать более старую модель ChatGPT-4, но можно выбрать всё ту же Claude (в двух вариациях: Claude Instant и Claude 2).
В сервисе BotHub можно переключиться на более раннюю версию GPT 4-0314, в которой нет признаков «отупения». Но это в платной версии, а бесплатная предоставляет доступ только к GPT 3.5.
Разумеется, есть множество и других подобных сервисов и нейросетей, однако работоспособность большинства из них оставляет желать лучшего.
Подведем итоги
Исследователи утверждают, что GPT-4 понемногу теряет эффективность. Само исследование подтверждает тот факт, что языковая модель за последние месяцы стала хуже решать задачи кодирования и компоновки. Субъективно, ухудшение работы модели отмечено многими пользователями и экспертами.
Популярные теории о причинах происходящего говорят о принудительной «дистилляции» языковых моделей для снижения их вычислительных издержек. Исследователи и аналитики считают, что в стремлении увеличить производительность и повысить скорость работы, а также сэкономить ресурсы разработчики провели тонкую настройку и дополнительное обучение, чтобы уменьшить объём «лишних» и «вредных» ответов, которые могут иметь негативные последствия. Бытует и несколько «теорий заговора», например, что способности GPT-4 якобы снижаются в угоду GitHub и Copilot, которые тоже принадлежат Microsoft.
Единственное и, пожалуй, самое верное решение в данной ситуации - ждать и пользоваться продуктами OpenAI более старых моделей. Заменит ли нас в конечном итоге тот самый пресловутый искусственный интеллект и воплотятся ли в реальность фильмы Джеймса Кэмерона - покажет время.
Статью подготовил: Иван Краев, пресс-центр ИЦТЭФ.