Найти в Дзене
Логово ИИ

ChatGPT становится глупее. Почему это происходит?

На первый взгляд, ChatGPT может быть удивительным — забавным, знающим любую тему и безупречно грамотным. С его помощью уже сдавали экзамены на адвоката и написали (защитив!) диплом.

Но есть проблема. Кажется, чат-бот становится все глупее.

2.4 балла из 100 по математике.

Группа исследователей Стэнфордского университета провели ряд тестов, как модель работает с течением времени при выполнении ряда задач. Результаты не слишком многообещающие. Чат-боту дали задачу: определить, является ли конкретный номер простым числом. Это такая математическая задача, которая сложна для людей, но проста для компьютеров.

Является ли 17 077 простым числом? Является ли 17 947 простым числом? Если вы не ученый, вам будет сложно посчитать это в голове, но компьютеру это легко оценить. Компьютер может просто решить задачу методом грубой силы — попробуйте разделить на два, три, пять и т. д. и посмотрите, получится ли что-нибудь.

Чтобы отслеживать производительность, исследователи предоставили ChatGPT 1000 различных чисел. В марте GPT-4 правильно определил, являются ли 97,6%% чисел простыми или нет. К июню его успешность упала до 51%. К июлю – точность рухнула до 2,4%.

Исследователи из Стэнфорда не просто задавали ChatGPT математические вопросы. Они также задавали вопросы, чтобы узнать, ответит ли чат-бот, опираясь на базу данных, содержащую около 1500 ответов.

В марте чат-бот версии 4 отвечал на 98% вопросов. К июню он дал ответы только на 23%, часто выдавая очень короткие ответы, говоря, что вопрос был субъективным и как ИИ у него не было никакого мнения.

Ученые отмечают – чат-бот стал хуже с некоторыми функциями, включая математические расчеты, ответы на медицинские вопросы и генерацию кода.

Почему так происходит. Официальная версия

После того, как люди начали жаловаться на GPT-4, Питер Велиндер, отвечающий за продукты OpenAI, выступил в защиту модели в Twitter. Он сказал, что пользователи могут подумать, что GPT-4 хуже, чем раньше, потому что они используют его чаще и начинают видеть проблемы, которых раньше не замечали.

Почему так происходит. Реалистичная версия.

Есть предположение, что вместо разработки улучшений для одной массивной модели GPT-4 OpenAI создает несколько меньших моделей GPT-4, ориентированных на конкретную тему. Этот подход, названный Mixture of Experts (MOE), уменьшит вычислительные затраты системы, предоставляя при этом возможности, аналогичные одной гигантской модели.

Разделив GPT-4 на специализированные более мелкие модели, ориентированные на узкие задачи, OpenAI может извлечь выгоду из большой языковой модели без особых затрат. Сейчас, в период тестирования - система неоптимизирована, поэтому и выдает результаты хуже.

Поделитесь вашим опытом работы с Chat GPT. Заметили ли вы изменения?