31 подписчик

Gemini 3: возвращение «империи Google» и первая настоящая заявка на лидерство над OpenAI

19 ноября 202519 ноя 2025

10 мин

После череды относительных «минорных апдейтов» — GPT‑5.1, Grok 4, лёгкого апгрейда Claude Sonnet — вторая половина 2025‑го в ИИ выглядела спокойной. Запуск Gemini 3 эту спокойную картину обнулил. Новый флагман Google: Это не просто «очередная версия», а демонстрация того, что Scaling Law ещё жив, а Google способен вернуться в роль технологического «императора», играя сразу на всех фронтах — от ядерной архитектуры до UX. 01. Бенчмарки: не +2–3%, а разрыв в поколение Вокруг тестов ИИ‑моделей уже давно шутят: все «натаскиваются», а реальные различия минимальны. Gemini 3 ломает этот шаблон. Humanity’s Last Exam (HLE) HLE задуман как «последний экзамен человечества» — проверка способности модели решать самые сложные задачи на уровне top‑экспертов. Почти двукратный рост по сравнению с предыдущей версией — редкость для зрелого рынка. ARC‑AGI‑2: тест «флюидного интеллекта» ARC‑AGI‑2 (от Франсуа Шолле) — один из самых жёстких бенчмарков, измеряющий способность: Результаты: По словам самого Шол

После череды относительных «минорных апдейтов» — GPT‑5.1, Grok 4, лёгкого апгрейда Claude Sonnet — вторая половина 2025‑го в ИИ выглядела спокойной. Запуск Gemini 3 эту спокойную картину обнулил.

Новый флагман Google:

резко вырвался вперёд на ряде ключевых бенчмарков;
показал лучшую на рынке многомодальную «осведомлённость»;
продемонстрировал прорыв в интеграции модели, UI и агентных возможностей;
и стал первой моделью Google, которая по совокупности параметров реально затмевает OpenAI.

Это не просто «очередная версия», а демонстрация того, что Scaling Law ещё жив, а Google способен вернуться в роль технологического «императора», играя сразу на всех фронтах — от ядерной архитектуры до UX.

01. Бенчмарки: не +2–3%, а разрыв в поколение

Вокруг тестов ИИ‑моделей уже давно шутят: все «натаскиваются», а реальные различия минимальны. Gemini 3 ломает этот шаблон.

Humanity’s Last Exam (HLE)

HLE задуман как «последний экзамен человечества» — проверка способности модели решать самые сложные задачи на уровне top‑экспертов.

Gemini 2.5 Pro: 21,6%
Claude Sonnet 4.5: 13,7%
Gemini 3 Pro:
37,5% — без инструментов,
45,8% — с инструментами.

Почти двукратный рост по сравнению с предыдущей версией — редкость для зрелого рынка.

ARC‑AGI‑2: тест «флюидного интеллекта»

ARC‑AGI‑2 (от Франсуа Шолле) — один из самых жёстких бенчмарков, измеряющий способность:

решать совершенно новые, не виденные в тренинге задачи;
работать с абстракцией и переносом, а не только с меморизацией.

Результаты:

Gemini 2.5 Pro: 4,9%
GPT‑5.1: 17,6%
Gemini 3 Pro: 31,1%

По словам самого Шолле, Gemini 3 Pro и Deep Think на ARC v2 вдвое превзошли предыдущий SOTA, и это стало для него «приятным, но неожиданным сюрпризом». Время решения лучших задач — 772 токена и 188 секунд, почти на уровне человеческого жюри (в среднем 147 секунд).

Фактически, Gemini 3 впервые показывает зрелые признаки «жидкого интеллекта» в задачах, не покрытых обучающими данными.

Математика: MathArena Apex

Новый соревновательный бенчмарк для сложной математики:

Gemini 2.5 Pro: 0,5%
Claude Sonnet 4.5: 1,6%
GPT‑5.1: 1,0%
Gemini 3 Pro: 23,4%

От «единих процентов» к более чем одной пятой задач — это не косметическое улучшение, а переход в другую лигу.

Мультимодальность: сильнейшая зона Google

На поле, где Google традиционно силён — понимание картинок, видео, интерфейсов — Gemini 3 доминирует.

MMMU‑Pro: 81,0%
CharXiv Reasoning: 81,4% — выше основных конкурентов.
ScreenSpot-Pro (понимание скриншотов и UI):
Gemini 3: 72,7%
вдвое выше Claude Sonnet 4.5,
в двадцать раз выше GPT‑5.1.

Это критически важно для будущих агентов, управляющих графическими интерфейсами: от десктопов до веб‑приложений.

02. Код и агенты: из слабого места в конкурентное преимущество

Исторически у Google кодогенерация была слабой стороной: модели часто уступали OpenAI и Anthropic в реальных инженерных задачах. Gemini 3 меняет расклад.

SWE‑Bench Verified

На бенчмарке «настоящего софта» (фиксы в реальных репозиториях):

Gemini 3: 76,2%
Claude: 77,2%

Здесь Google всё ещё чуть позади, но…

LiveCodeBench и инструментальные тесты

LiveCodeBench: Gemini 3 обходит Grok 4.1 более чем на 200 баллов.
12‑Bench (работа с инструментами / API):
Gemini 2.5 Pro: 54,9%
Gemini 3 Pro: 85,4%
Terminal-Bench 2.0 (поведение в терминале):
Gemini 3: 54,2%
на 11 п.п. выше ближайшего конкурента.

Связка:

понимание экранов (ScreenSpot),
хорошее ощущение UI,
развитая работа с инструментами

делает Gemini 3 особенно сильным в реальном окружении разработчика, а не только в синтетических задачах.

Design Arena и «смерк переднего фронта»

В сообществе разработчиков Design Arena — это своего рода онлайн‑«олимпиада» по реальному кодингу, от веба до 3D.

Gemini 3 Pro — #1 в общем зачёте,
лидирует в 4 из 5 категорий:
сайты,
игры,
3D,
UI‑компоненты.

Ключевой момент: модель не только «пишет рабочий код», но и демонстрирует:

осмысленный responsive‑дизайн,
адекватный выбор палитры и типографики,
аккуратную анимацию,
учёт доступности (a11y).

Gemini 3 обучали на:

больших массивах изображений,
видео,
HTML/CSS/JS/веб‑данных.

То есть он учился не только «как написать код», но и «какие интерфейсы считаются хорошими». Отсюда эффект: модель выступает почти как универсальный «фуллстек‑дизайнер‑разработчик».

03. Generative UI: когда модель сама рисует интерфейс под запрос

Один из наиболее ощутимых для пользователя прорывов — концепция Generative UI:

вместо того чтобы вернуть только текстовый ответ, модель динамически генерирует интерфейс, подходящий к задаче;
UI адаптируется к:
возрасту аудитории,
уровню подготовки,
контексту использования.

Пример с презентации Google: вопрос «Как работает РНК‑полимераза?»

Gemini 3 не просто пишет объяснение, а:

создаёт интерактивный модуль:
визуализация,
кликабельные элементы,
шаговые объяснения;
для ребёнка 5 лет:
крупные элементы,
яркие цвета,
минимум терминов,
игровая механика;
для взрослого:
высокая информационная плотность,
схемы,
научные термины,
ссылки на источники.

В многоходовом диалоге модель:

постепенно выучивает вкусы пользователя (любовь к минимализму или, наоборот, к анимациям);
подстраивает:
плотность информации,
стиль интерфейса,
визуальные эффекты.

Результат — интерфейсы, которые чувствуются «сделанными дизайнером», а не шаблонными. Отсюда и разговоры о том, что роль классического фронтендера начинает «растворяться» внутри модели.

04. Модель = агент: Gemini 3 как универсальный исполнитель

Один из ключевых трендов 2025 года — переход от «модели» к агенту:

модель умеет не только генерировать текст, но:
планировать задачи,
вызывать внешние инструменты и API,
отслеживать состояние,
рефлексировать и улучшать собственное решение.

OpenAI показала направление через AgentKit и «AI‑внутренние приложения». Но до Gemini 3 ни одна крупная модель не имела в consumer‑интерфейсе полноценной универсальной агентной прослойки.

Google решила рискнуть первой:

Gemini 3 из коробки в пользовательском UI имеет агентные сценарии;
по Model Card:
модель дополнительно обучена с помощью RL,
использовались датасеты по многошаговому рассуждению, решению задач, теорем.

Функционально это выражается в:

значительно улучшенном function calling (+30% к Gemini 2.5 Pro);
более точном выборе инструментов;
умении комбинировать несколько инструментов в одном workflow.

Пример: запрос «помоги выучить новый язык».

Классический LLM:
даёт план,
список ресурсов,
может сгенерировать упражнения.
Gemini 3:
строит целую систему обучения:
карточки с интервальным повторением,
грамматические тренажёры с немедленной обратной связью,
упражнения по произношению с распознаванием речи,
дашборд прогресса.

То есть модель выступает как продукт‑менеджер, методист и разработчик AI‑сервиса одновременно.

При этом она глубоко интегрирована в экосистему Google:

папка My Stuff собирает все созданные моделью артефакты:
изображения,
видео,
отчёты;
прямо из интерфейса доступны десятки миллиардов товарных карточек, что превращает модель в связующий слой между поиском, коммерцией и пользовательскими задачами.

05. Scaling Law жив: что говорит Gemini 3 о границах масштабирования

Последние год‑полтора в ИИ шли активные споры: не «сломался» ли Scaling Law?

данные дорожают и иссякают,
вычисления растут экспоненциально,
прирост качества выглядит всё менее впечатляющим.

Ответ Google через Gemini 3:

«Scaling не исчерпан».

Один из лидеров DeepMind, Oriol Vinyals, после релиза писал:

«Секрет Gemini 3 — в улучшениях преподготовки и постобучения»;
«Post‑training — практически девственная область, там ещё очень много пространства для алгоритмических прорывов»;
«Вопреки популярному мнению „скейлинг закончился“, скачок от 2.5 к 3.0 — один из крупнейших, что мы видели. Никакого потолка не видно».

По открытой информации:

Gemini 3 Pro — это не просто дообученный 2.5,
а новая архитектура на базе sparse Mixture‑of‑Experts (MoE);
DeepMind с весны придерживается политики:
ключевые статьи задерживаются минимум на 6 месяцев,
поэтому детали архитектуры и тренировочного режима придётся восстанавливать по косвенным признакам.

Тем не менее по пазлам видно:

в Veo 3 и Genie 3 можно проследить рывок в мультимодальности;
проекты вроде AI Co‑scienstist, SIMA 2 — задел в области агентного автотренинга;
работы DiscoRL (Nature) и Alpha Evolve — исследования непрерывного обучения, самоэволюции агентов.

В итоге:

высокие баллы на ScreenSpot и других MM‑бенчмарках дают агентам надёжную «сенсорную» базу;
agentic‑loop поверх этих восприятий обеспечивает устойчивое планирование и выполнение;
RL‑инновации (DiscoRL и др.) делают самообучение агентов эффективным и масштабируемым.

Это не «один трюк», а сведение воедино цепочки улучшений от восприятия до планирования — и даёт тот самый «мультипликативный эффект», который конкуренты, оптимизирующие один блок, воспроизвести не могут.

Но и ограничения видны

Франсуа Шолле указывает на важный парадокс:

Gemini 3 Pro показывает очень высокий результат на ARC v2,
но при этом на более простом ARC v1 по‑прежнему делает грубые ошибки.

Кроме того:

задачи, решаемые Gemini 3 Pro за 2000 «thinking‑tokens»,
в режиме Deep Think могут потребовать до 300 000 токенов и всё равно не решиться.

Вывод Шолле:

рост «флюидного интеллекта» неравномерен;
улучшения концентрируются там, где:
есть достаточно репрезентативные тренировочные данные,
есть чёткий, формализованный feedback‑сигнал.

То есть Scaling Law работает, но не магическим образом везде сразу.

06. Стоимость: дорогой премиум или экономия на глубине?

По API Gemini 3 Pro — один из самых дорогих моделей на рынке:

$2 за 1M входных токенов,
$12 за 1M выходных токенов.

Но есть нюанс:

модель заметно эффективнее по расходу токенов;
в тех же задачах использует меньше контекста, чем многие конкуренты (включая локальных игроков вроде Kimi K2).

Оценка аналитиков:

реальный рост стоимости для пользователя — порядка +12%;
если учесть, что:
Gemini 3 чаще решает задачу с первого раза,
и сокращает число перегенераций/перепромптов,

то общая стоимость владения (TCO) для сложных задач может оказаться даже ниже, чем у более дешёвых, но слабых моделей.

07. «Цифровой коллега» вместо чат‑бота: что изменилось по сути

Один из лучших публичных резюме эффекта Gemini 3 дал профессор Уортона Итан Моллик:

«Три года назад мы восхищались тем, что машина может написать стихотворение про выдр.
Меньше чем через тысячу дней я спорю со „сотрудником“, который сам построил для себя исследовательскую среду, о статистических методах.
Эпоха чат‑ботов сменяется эпохой цифровых коллег».

Ключевой сдвиг:

роль человека в контуре human in the loop меняется:
было: «человек, исправляющий ошибки ИИ»;
становится: «человек, который ставит задачи и управляет работой ИИ».

Gemini 3, при всей своей неидеальности, — один из первых реальных примеров такого перехода:

модель не просто отвечает,
она:
строит среды,
проектирует интерфейсы,
организует workflow,
собирает и структурирует артефакты.

Именно это делает её релиз похожим не на «ещё одну модель», а на новую ступень в эволюции рабочих инструментов.

Для OpenAI это означает начало настоящей конкурентной ночи без сна.
Для рынка в целом — подтверждение, что:

эпоха «одного безусловного лидера» закончилась;
а гонка AGI возвращается в формат полноценной многополярной конкуренции, где Google больше не выглядит догоняющим.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/