23 подписчика

ИИ-рейтинг: GPT-5.2 незначительно опережает конкурентов

8 января8 янв

1 мин

Платформа Artificial Analysis представила четвертую версию Intelligence Index, одного из самых авторитетных рейтингов современных ИИ-моделей. Новый отчет показывает практически равные возможности трех лидеров рынка. GPT-5.2 в конфигурации X-High формально занимает первое место, но Claude Opus 4.5 от Anthropic и Gemini 3 Pro от Google ненамного отстают, и эта разница незначительна. Ключевое изменение в версии 4.0 – это обновленная методология. Разработчики рейтинга намеренно усложнили тесты, отказавшись от стандартных бенчмарков, которые стали слишком предсказуемыми. В результате, общие оценки снизились. Если раньше лидеры набирали более 70 баллов, то сейчас максимальный результат составляет около 50. Это не означает ухудшение качества моделей, а лишь отражает стремление к более объективной оценке. Вместо AIME 2025 и MMLU-Pro были введены новые наборы задач. AA-Omniscience проверяет глубину знаний и способность избегать "галлюцинаций". GDPval-AA оценивает практическую ценность ИИ в 44 п

Ключевое изменение в версии 4.0 – это обновленная методология. Разработчики рейтинга намеренно усложнили тесты, отказавшись от стандартных бенчмарков, которые стали слишком предсказуемыми. В результате, общие оценки снизились. Если раньше лидеры набирали более 70 баллов, то сейчас максимальный результат составляет около 50. Это не означает ухудшение качества моделей, а лишь отражает стремление к более объективной оценке.

Вместо AIME 2025 и MMLU-Pro были введены новые наборы задач. AA-Omniscience проверяет глубину знаний и способность избегать "галлюцинаций". GDPval-AA оценивает практическую ценность ИИ в 44 профессиональных сферах, от финансов до медицины. CritPt фокусируется на научном мышлении и решении инженерных задач. Итоговый индекс формируется на основе четырех ключевых направлений: агентные возможности, программирование, научное рассуждение и общие задачи.

Отчет также отмечает, что разница между лучшими моделями проявляется не столько в среднем балле, сколько в их специфических сильных и слабых сторонах. Некоторые модели превосходят другие в агентных сценариях и сложных последовательностях действий, в то время как другие демонстрируют более надежное научное мышление или меньшую вероятность ошибок.