10 подписчиков

Google выпустила Gemini 3.1 Pro и снова обошла конкурентов в большинстве бенчмарков

20 февраля20 фев

1 мин

Компания Google официально представила Gemini 3.1 Pro — обновленную флагманскую модель искусственного интеллекта. Новинка показала впечатляющие результаты в тестах и превзошла своих главных конкурентов, включая последние версии GPT и Claude. Главным достижением стал прорыв в тесте ARC-AGI-2. Этот бенчмарк оценивает способность ИИ решать совершенно новые логические задачи, с которыми модель не сталкивалась в процессе обучения. Такой скачок говорит о том, что нейросеть стала гораздо лучше «рассуждать» и находить выходы из нестандартных ситуаций, а не просто подбирать ответы из базы данных. Согласно опубликованным таблицам Google, новая модель лидирует в большинстве ключевых тестов: Модель лишь незначительно уступает конкурентам в точечных проверках — например, нейросеть Claude Opus всё еще чуть лучше справляется с гуманитарными тестами. Экспертов впечатлили темпы работы Google: между версиями 3.0 и 3.1 прошло всего три месяца, но за это время разработчики смогли добиться двукратного рост

Оглавление

Что изменилось?
Результаты в других областях
Скорость развития

Компания Google официально представила Gemini 3.1 Pro — обновленную флагманскую модель искусственного интеллекта. Новинка показала впечатляющие результаты в тестах и превзошла своих главных конкурентов, включая последние версии GPT и Claude.

Что изменилось?

Главным достижением стал прорыв в тесте ARC-AGI-2. Этот бенчмарк оценивает способность ИИ решать совершенно новые логические задачи, с которыми модель не сталкивалась в процессе обучения.

Gemini 3.1 Pro набрала 77,1%.
Для сравнения: средний результат обычного человека в этом тесте составляет около 60%.
Предыдущая версия (Gemini 3 Pro) набирала всего 31,1%.

Такой скачок говорит о том, что нейросеть стала гораздо лучше «рассуждать» и находить выходы из нестандартных ситуаций, а не просто подбирать ответы из базы данных.

Результаты в других областях

Согласно опубликованным таблицам Google, новая модель лидирует в большинстве ключевых тестов:

Наука: В тесте GPQA Diamond (знания на уровне доктора наук/PhD) модель показала результат 94,3%.
Программирование: Gemini 3.1 Pro демонстрирует отличные навыки в «агентском» кодинге (способность ИИ самостоятельно писать и исправлять сложные программы).
Языки: Точность мультиязычных знаний достигла 92,6%.

Модель лишь незначительно уступает конкурентам в точечных проверках — например, нейросеть Claude Opus всё еще чуть лучше справляется с гуманитарными тестами.

Скорость развития

Экспертов впечатлили темпы работы Google: между версиями 3.0 и 3.1 прошло всего три месяца, но за это время разработчики смогли добиться двукратного роста логических способностей нейросети.

Больше новостей о нейросетях в телеграмм:

t.me

Mosto.Ai News