Найти в Дзене
Social Mebia Systems

Gemini 3: возвращение «империи Google» и первая настоящая заявка на лидерство над OpenAI

После череды относительных «минорных апдейтов» — GPT‑5.1, Grok 4, лёгкого апгрейда Claude Sonnet — вторая половина 2025‑го в ИИ выглядела спокойной. Запуск Gemini 3 эту спокойную картину обнулил. Новый флагман Google: Это не просто «очередная версия», а демонстрация того, что Scaling Law ещё жив, а Google способен вернуться в роль технологического «императора», играя сразу на всех фронтах — от ядерной архитектуры до UX. 01. Бенчмарки: не +2–3%, а разрыв в поколение Вокруг тестов ИИ‑моделей уже давно шутят: все «натаскиваются», а реальные различия минимальны. Gemini 3 ломает этот шаблон. Humanity’s Last Exam (HLE) HLE задуман как «последний экзамен человечества» — проверка способности модели решать самые сложные задачи на уровне top‑экспертов. Почти двукратный рост по сравнению с предыдущей версией — редкость для зрелого рынка. ARC‑AGI‑2: тест «флюидного интеллекта» ARC‑AGI‑2 (от Франсуа Шолле) — один из самых жёстких бенчмарков, измеряющий способность: Результаты: По словам самого Шол

После череды относительных «минорных апдейтов» — GPT‑5.1, Grok 4, лёгкого апгрейда Claude Sonnet — вторая половина 2025‑го в ИИ выглядела спокойной. Запуск Gemini 3 эту спокойную картину обнулил.

Новый флагман Google:

  • резко вырвался вперёд на ряде ключевых бенчмарков;
  • показал лучшую на рынке многомодальную «осведомлённость»;
  • продемонстрировал прорыв в интеграции модели, UI и агентных возможностей;
  • и стал первой моделью Google, которая по совокупности параметров реально затмевает OpenAI.

Это не просто «очередная версия», а демонстрация того, что Scaling Law ещё жив, а Google способен вернуться в роль технологического «императора», играя сразу на всех фронтах — от ядерной архитектуры до UX.

01. Бенчмарки: не +2–3%, а разрыв в поколение

Вокруг тестов ИИ‑моделей уже давно шутят: все «натаскиваются», а реальные различия минимальны. Gemini 3 ломает этот шаблон.

Humanity’s Last Exam (HLE)

HLE задуман как «последний экзамен человечества» — проверка способности модели решать самые сложные задачи на уровне top‑экспертов.

  • Gemini 2.5 Pro: 21,6%
  • Claude Sonnet 4.5: 13,7%
  • Gemini 3 Pro:
  • 37,5% — без инструментов,
  • 45,8% — с инструментами.

Почти двукратный рост по сравнению с предыдущей версией — редкость для зрелого рынка.

ARC‑AGI‑2: тест «флюидного интеллекта»

ARC‑AGI‑2 (от Франсуа Шолле) — один из самых жёстких бенчмарков, измеряющий способность:

  • решать совершенно новые, не виденные в тренинге задачи;
  • работать с абстракцией и переносом, а не только с меморизацией.

Результаты:

  • Gemini 2.5 Pro: 4,9%
  • GPT‑5.1: 17,6%
  • Gemini 3 Pro: 31,1%

По словам самого Шолле, Gemini 3 Pro и Deep Think на ARC v2 вдвое превзошли предыдущий SOTA, и это стало для него «приятным, но неожиданным сюрпризом». Время решения лучших задач — 772 токена и 188 секунд, почти на уровне человеческого жюри (в среднем 147 секунд).

Фактически, Gemini 3 впервые показывает зрелые признаки «жидкого интеллекта» в задачах, не покрытых обучающими данными.

Математика: MathArena Apex

Новый соревновательный бенчмарк для сложной математики:

  • Gemini 2.5 Pro: 0,5%
  • Claude Sonnet 4.5: 1,6%
  • GPT‑5.1: 1,0%
  • Gemini 3 Pro: 23,4%

От «единих процентов» к более чем одной пятой задач — это не косметическое улучшение, а переход в другую лигу.

Мультимодальность: сильнейшая зона Google

На поле, где Google традиционно силён — понимание картинок, видео, интерфейсов — Gemini 3 доминирует.

  • MMMU‑Pro: 81,0%
  • CharXiv Reasoning: 81,4% — выше основных конкурентов.
  • ScreenSpot-Pro (понимание скриншотов и UI):
  • Gemini 3: 72,7%
  • вдвое выше Claude Sonnet 4.5,
  • в двадцать раз выше GPT‑5.1.

Это критически важно для будущих агентов, управляющих графическими интерфейсами: от десктопов до веб‑приложений.

02. Код и агенты: из слабого места в конкурентное преимущество

Исторически у Google кодогенерация была слабой стороной: модели часто уступали OpenAI и Anthropic в реальных инженерных задачах. Gemini 3 меняет расклад.

SWE‑Bench Verified

На бенчмарке «настоящего софта» (фиксы в реальных репозиториях):

  • Gemini 3: 76,2%
  • Claude: 77,2%

Здесь Google всё ещё чуть позади, но…

LiveCodeBench и инструментальные тесты

  • LiveCodeBench: Gemini 3 обходит Grok 4.1 более чем на 200 баллов.
  • 12‑Bench (работа с инструментами / API):
  • Gemini 2.5 Pro: 54,9%
  • Gemini 3 Pro: 85,4%
  • Terminal-Bench 2.0 (поведение в терминале):
  • Gemini 3: 54,2%
  • на 11 п.п. выше ближайшего конкурента.

Связка:

  • понимание экранов (ScreenSpot),
  • хорошее ощущение UI,
  • развитая работа с инструментами

делает Gemini 3 особенно сильным в реальном окружении разработчика, а не только в синтетических задачах.

Design Arena и «смерк переднего фронта»

В сообществе разработчиков Design Arena — это своего рода онлайн‑«олимпиада» по реальному кодингу, от веба до 3D.

  • Gemini 3 Pro — #1 в общем зачёте,
  • лидирует в 4 из 5 категорий:
  • сайты,
  • игры,
  • 3D,
  • UI‑компоненты.

Ключевой момент: модель не только «пишет рабочий код», но и демонстрирует:

  • осмысленный responsive‑дизайн,
  • адекватный выбор палитры и типографики,
  • аккуратную анимацию,
  • учёт доступности (a11y).

Gemini 3 обучали на:

  • больших массивах изображений,
  • видео,
  • HTML/CSS/JS/веб‑данных.

То есть он учился не только «как написать код», но и «какие интерфейсы считаются хорошими». Отсюда эффект: модель выступает почти как универсальный «фуллстек‑дизайнер‑разработчик».

03. Generative UI: когда модель сама рисует интерфейс под запрос

Один из наиболее ощутимых для пользователя прорывов — концепция Generative UI:

  • вместо того чтобы вернуть только текстовый ответ, модель динамически генерирует интерфейс, подходящий к задаче;
  • UI адаптируется к:
  • возрасту аудитории,
  • уровню подготовки,
  • контексту использования.

Пример с презентации Google: вопрос «Как работает РНК‑полимераза?»

Gemini 3 не просто пишет объяснение, а:

  • создаёт интерактивный модуль:
  • визуализация,
  • кликабельные элементы,
  • шаговые объяснения;
  • для ребёнка 5 лет:
  • крупные элементы,
  • яркие цвета,
  • минимум терминов,
  • игровая механика;
  • для взрослого:
  • высокая информационная плотность,
  • схемы,
  • научные термины,
  • ссылки на источники.

В многоходовом диалоге модель:

  • постепенно выучивает вкусы пользователя (любовь к минимализму или, наоборот, к анимациям);
  • подстраивает:
  • плотность информации,
  • стиль интерфейса,
  • визуальные эффекты.

Результат — интерфейсы, которые чувствуются «сделанными дизайнером», а не шаблонными. Отсюда и разговоры о том, что роль классического фронтендера начинает «растворяться» внутри модели.

04. Модель = агент: Gemini 3 как универсальный исполнитель

Один из ключевых трендов 2025 года — переход от «модели» к агенту:

  • модель умеет не только генерировать текст, но:
  • планировать задачи,
  • вызывать внешние инструменты и API,
  • отслеживать состояние,
  • рефлексировать и улучшать собственное решение.

OpenAI показала направление через AgentKit и «AI‑внутренние приложения». Но до Gemini 3 ни одна крупная модель не имела в consumer‑интерфейсе полноценной универсальной агентной прослойки.

Google решила рискнуть первой:

  • Gemini 3 из коробки в пользовательском UI имеет агентные сценарии;
  • по Model Card:
  • модель дополнительно обучена с помощью RL,
  • использовались датасеты по многошаговому рассуждению, решению задач, теорем.

Функционально это выражается в:

  • значительно улучшенном function calling (+30% к Gemini 2.5 Pro);
  • более точном выборе инструментов;
  • умении комбинировать несколько инструментов в одном workflow.

Пример: запрос «помоги выучить новый язык».

  • Классический LLM:
  • даёт план,
  • список ресурсов,
  • может сгенерировать упражнения.
  • Gemini 3:
  • строит целую систему обучения:
  • карточки с интервальным повторением,
  • грамматические тренажёры с немедленной обратной связью,
  • упражнения по произношению с распознаванием речи,
  • дашборд прогресса.

То есть модель выступает как продукт‑менеджер, методист и разработчик AI‑сервиса одновременно.

При этом она глубоко интегрирована в экосистему Google:

  • папка My Stuff собирает все созданные моделью артефакты:
  • изображения,
  • видео,
  • отчёты;
  • прямо из интерфейса доступны десятки миллиардов товарных карточек, что превращает модель в связующий слой между поиском, коммерцией и пользовательскими задачами.

05. Scaling Law жив: что говорит Gemini 3 о границах масштабирования

Последние год‑полтора в ИИ шли активные споры: не «сломался» ли Scaling Law?

  • данные дорожают и иссякают,
  • вычисления растут экспоненциально,
  • прирост качества выглядит всё менее впечатляющим.

Ответ Google через Gemini 3:

«Scaling не исчерпан».

Один из лидеров DeepMind, Oriol Vinyals, после релиза писал:

  • «Секрет Gemini 3 — в улучшениях преподготовки и постобучения»;
  • «Post‑training — практически девственная область, там ещё очень много пространства для алгоритмических прорывов»;
  • «Вопреки популярному мнению „скейлинг закончился“, скачок от 2.5 к 3.0 — один из крупнейших, что мы видели. Никакого потолка не видно».

По открытой информации:

  • Gemini 3 Pro — это не просто дообученный 2.5,
    а новая архитектура на базе
    sparse Mixture‑of‑Experts (MoE);
  • DeepMind с весны придерживается политики:
  • ключевые статьи задерживаются минимум на 6 месяцев,
  • поэтому детали архитектуры и тренировочного режима придётся восстанавливать по косвенным признакам.

Тем не менее по пазлам видно:

  • в Veo 3 и Genie 3 можно проследить рывок в мультимодальности;
  • проекты вроде AI Co‑scienstist, SIMA 2 — задел в области агентного автотренинга;
  • работы DiscoRL (Nature) и Alpha Evolve — исследования непрерывного обучения, самоэволюции агентов.

В итоге:

  • высокие баллы на ScreenSpot и других MM‑бенчмарках дают агентам надёжную «сенсорную» базу;
  • agentic‑loop поверх этих восприятий обеспечивает устойчивое планирование и выполнение;
  • RL‑инновации (DiscoRL и др.) делают самообучение агентов эффективным и масштабируемым.

Это не «один трюк», а сведение воедино цепочки улучшений от восприятия до планирования — и даёт тот самый «мультипликативный эффект», который конкуренты, оптимизирующие один блок, воспроизвести не могут.

Но и ограничения видны

Франсуа Шолле указывает на важный парадокс:

  • Gemini 3 Pro показывает очень высокий результат на ARC v2,
  • но при этом на более простом ARC v1 по‑прежнему делает грубые ошибки.

Кроме того:

  • задачи, решаемые Gemini 3 Pro за 2000 «thinking‑tokens»,
    в режиме Deep Think могут потребовать
    до 300 000 токенов и всё равно не решиться.

Вывод Шолле:

  • рост «флюидного интеллекта» неравномерен;
  • улучшения концентрируются там, где:
  • есть достаточно репрезентативные тренировочные данные,
  • есть чёткий, формализованный feedback‑сигнал.

То есть Scaling Law работает, но не магическим образом везде сразу.

06. Стоимость: дорогой премиум или экономия на глубине?

По API Gemini 3 Pro — один из самых дорогих моделей на рынке:

  • $2 за 1M входных токенов,
  • $12 за 1M выходных токенов.

Но есть нюанс:

  • модель заметно эффективнее по расходу токенов;
  • в тех же задачах использует меньше контекста, чем многие конкуренты (включая локальных игроков вроде Kimi K2).

Оценка аналитиков:

  • реальный рост стоимости для пользователя — порядка +12%;
  • если учесть, что:
  • Gemini 3 чаще решает задачу с первого раза,
  • и сокращает число перегенераций/перепромптов,

то общая стоимость владения (TCO) для сложных задач может оказаться даже ниже, чем у более дешёвых, но слабых моделей.

07. «Цифровой коллега» вместо чат‑бота: что изменилось по сути

Один из лучших публичных резюме эффекта Gemini 3 дал профессор Уортона Итан Моллик:

«Три года назад мы восхищались тем, что машина может написать стихотворение про выдр.
Меньше чем через тысячу дней я спорю со „сотрудником“, который сам построил для себя исследовательскую среду, о статистических методах.
Эпоха чат‑ботов сменяется эпохой цифровых коллег».

Ключевой сдвиг:

  • роль человека в контуре human in the loop меняется:
  • было: «человек, исправляющий ошибки ИИ»;
  • становится: «человек, который ставит задачи и управляет работой ИИ».

Gemini 3, при всей своей неидеальности, — один из первых реальных примеров такого перехода:

  • модель не просто отвечает,
  • она:
  • строит среды,
  • проектирует интерфейсы,
  • организует workflow,
  • собирает и структурирует артефакты.

Именно это делает её релиз похожим не на «ещё одну модель», а на новую ступень в эволюции рабочих инструментов.

Для OpenAI это означает начало настоящей конкурентной ночи без сна.
Для рынка в целом — подтверждение, что:

  • эпоха «одного безусловного лидера» закончилась;
  • а гонка AGI возвращается в формат полноценной многополярной конкуренции, где Google больше не выглядит догоняющим.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/