Этот анализ был представлен менее чем через 24 часа после того, как компания анонсировала обновление для модели GPT-4o. «Способности модели к творческому письму значительно улучшились — теперь она пишет более естественно, увлекательно и с учетом индивидуальных потребностей, что способствует увеличению актуальности и удобочитаемости», — написала OpenAI в своем посте в X. «Модель также лучше справляется с загруженными файлами, предоставляя более глубокие инсайты и более полные ответы». Однако правдивость этих утверждений теперь вызывает сомнения. «Мы завершили независимые оценки новой версии GPT-4o от OpenAI, выпущенной вчера, и consistently фиксируем существенно более низкие оценки по сравнению с версией GPT-4o от августа», — сообщили в Artificial Analysis в посте в X в четверг, отметив, что Индекс Качества Искусственного Анализа модели снизился с 77 до 71 (и теперь равен показателю GPT-4o mini). Более того, показатели производительности GPT-4o на бенчмарке GPQA Diamond снизились с 51%
Модель ChatGPT последнего поколения может оказаться регрессией в производительности
27 ноября 202427 ноя 2024
11
2 мин