19 подписчиков

OpenAI, Anthropic и Google делят лидерство в benchmark AI

7 января7 янв

~1 мин

Artificial Analysis выпустила четвертую версию своего Intelligence Index, где оценивается уровень ИИ-моделей по нескольким тестам. На первом месте оказался OpenAI GPT-5.2 с максимальным уровнем рассуждения, за ним следуют Claude Opus 4.5 от Anthropic и Gemini 3 Pro от Google. В индексе используются четыре категории с одинаковым весом: агенты, программирование, научное мышление и общий уровень. Максимальный балл теперь составляет 50, тогда как раньше были значения до 73, что делает распределение более равномерным. В этом обновлении убрали старые тесты (AIME 2025, LiveCodeBench и MMLU-Pro) и добавили новые. AA-Omniscience оценивает знания моделей по 40 темам и выявляет… Подробнее

В индексе используются четыре категории с одинаковым весом: агенты, программирование, научное мышление и общий уровень. Максимальный балл теперь составляет 50, тогда как раньше были значения до 73, что делает распределение более равномерным.

В этом обновлении убрали старые тесты (AIME 2025, LiveCodeBench и MMLU-Pro) и добавили новые. AA-Omniscience оценивает знания моделей по 40 темам и выявляет…

Подробнее