Добавить в корзинуПозвонить
Найти в Дзене
Mosto Ai

Google выпустила Gemini 3.1 Pro и снова обошла конкурентов в большинстве бенчмарков

Компания Google официально представила Gemini 3.1 Pro — обновленную флагманскую модель искусственного интеллекта. Новинка показала впечатляющие результаты в тестах и превзошла своих главных конкурентов, включая последние версии GPT и Claude. Главным достижением стал прорыв в тесте ARC-AGI-2. Этот бенчмарк оценивает способность ИИ решать совершенно новые логические задачи, с которыми модель не сталкивалась в процессе обучения. Такой скачок говорит о том, что нейросеть стала гораздо лучше «рассуждать» и находить выходы из нестандартных ситуаций, а не просто подбирать ответы из базы данных. Согласно опубликованным таблицам Google, новая модель лидирует в большинстве ключевых тестов: Модель лишь незначительно уступает конкурентам в точечных проверках — например, нейросеть Claude Opus всё еще чуть лучше справляется с гуманитарными тестами. Экспертов впечатлили темпы работы Google: между версиями 3.0 и 3.1 прошло всего три месяца, но за это время разработчики смогли добиться двукратного рост
Оглавление

Компания Google официально представила Gemini 3.1 Pro — обновленную флагманскую модель искусственного интеллекта. Новинка показала впечатляющие результаты в тестах и превзошла своих главных конкурентов, включая последние версии GPT и Claude.

Что изменилось?

Главным достижением стал прорыв в тесте ARC-AGI-2. Этот бенчмарк оценивает способность ИИ решать совершенно новые логические задачи, с которыми модель не сталкивалась в процессе обучения.

  • Gemini 3.1 Pro набрала 77,1%.
  • Для сравнения: средний результат обычного человека в этом тесте составляет около 60%.
  • Предыдущая версия (Gemini 3 Pro) набирала всего 31,1%.

Такой скачок говорит о том, что нейросеть стала гораздо лучше «рассуждать» и находить выходы из нестандартных ситуаций, а не просто подбирать ответы из базы данных.

-2

Результаты в других областях

Согласно опубликованным таблицам Google, новая модель лидирует в большинстве ключевых тестов:

  1. Наука: В тесте GPQA Diamond (знания на уровне доктора наук/PhD) модель показала результат 94,3%.
  2. Программирование: Gemini 3.1 Pro демонстрирует отличные навыки в «агентском» кодинге (способность ИИ самостоятельно писать и исправлять сложные программы).
  3. Языки: Точность мультиязычных знаний достигла 92,6%.

Модель лишь незначительно уступает конкурентам в точечных проверках — например, нейросеть Claude Opus всё еще чуть лучше справляется с гуманитарными тестами.

Скорость развития

Экспертов впечатлили темпы работы Google: между версиями 3.0 и 3.1 прошло всего три месяца, но за это время разработчики смогли добиться двукратного роста логических способностей нейросети.

Больше новостей о нейросетях в телеграмм:

Mosto.Ai News