Добавить в корзинуПозвонить
Найти в Дзене
Герман Геншин

Модель ChatGPT последнего поколения может оказаться регрессией в производительности

Этот анализ был представлен менее чем через 24 часа после того, как компания анонсировала обновление для модели GPT-4o. «Способности модели к творческому письму значительно улучшились — теперь она пишет более естественно, увлекательно и с учетом индивидуальных потребностей, что способствует увеличению актуальности и удобочитаемости», — написала OpenAI в своем посте в X. «Модель также лучше справляется с загруженными файлами, предоставляя более глубокие инсайты и более полные ответы». Однако правдивость этих утверждений теперь вызывает сомнения. «Мы завершили независимые оценки новой версии GPT-4o от OpenAI, выпущенной вчера, и consistently фиксируем существенно более низкие оценки по сравнению с версией GPT-4o от августа», — сообщили в Artificial Analysis в посте в X в четверг, отметив, что Индекс Качества Искусственного Анализа модели снизился с 77 до 71 (и теперь равен показателю GPT-4o mini). Более того, показатели производительности GPT-4o на бенчмарке GPQA Diamond снизились с 51%

Этот анализ был представлен менее чем через 24 часа после того, как компания анонсировала обновление для модели GPT-4o. «Способности модели к творческому письму значительно улучшились — теперь она пишет более естественно, увлекательно и с учетом индивидуальных потребностей, что способствует увеличению актуальности и удобочитаемости», — написала OpenAI в своем посте в X. «Модель также лучше справляется с загруженными файлами, предоставляя более глубокие инсайты и более полные ответы». Однако правдивость этих утверждений теперь вызывает сомнения.

«Мы завершили независимые оценки новой версии GPT-4o от OpenAI, выпущенной вчера, и consistently фиксируем существенно более низкие оценки по сравнению с версией GPT-4o от августа», — сообщили в Artificial Analysis в посте в X в четверг, отметив, что Индекс Качества Искусственного Анализа модели снизился с 77 до 71 (и теперь равен показателю GPT-4o mini).

Более того, показатели производительности GPT-4o на бенчмарке GPQA Diamond снизились с 51% до 39%, в то время как результаты на MATH бенчмарках упали с 78% до 69%.

В то же время исследователи обнаружили более чем двукратное увеличение скорости ответов модели, увеличившись с примерно 80 токенов вывода в секунду до примерно 180 токенов в секунду. «В целом мы наблюдали значительно более высокие скорости в день запуска моделей OpenAI (вероятно, из-за предварительного резервирования мощностей OpenAI перед запуском), но ранее не видели разницы в скорости в 2x», — отметили исследователи.

Подождите — новая модель GPT-4o меньше и менее интеллектуальна?

Мы завершили независимые оценки новой версии GPT-4o от OpenAI, выпущенной вчера, и consistently фиксируем существенно более низкие оценки по сравнению с версией GPT-4o от августа.

GPT-4o (ноябрь) против GPT-4o (август):
➤… pic.twitter.com/gjY2pBFuUv

— Artificial Analysis (@ArtificialAnlys) 21 ноября 2024 года

«Основываясь на этих данных, мы заключаем, что модель GPT-4o от OpenAI, выпущенная 20 ноября, вероятно, является уменьшенной версией по сравнению с августовским релизом», — продолжили они. «Учитывая, что OpenAI не снизила цены на версию от 20 ноября, мы рекомендуем разработчикам не переводить рабочие нагрузки с августа на новую версию без тщательного тестирования».

GPT-4o была впервые выпущена в мае 2024 года, чтобы превзойти существующие модели GPT-3.5 и GPT-4. По утверждениям OpenAI, GPT-4o демонстрирует современные результаты на бенчмарках в задачах голосового ввода, многоязычного общения и компьютерного зрения, что делает её идеальной для продвинутых приложений, таких как синхронный перевод и разговорный ИИ.

Вы также можете читать меня в: