После череды относительных «минорных апдейтов» — GPT‑5.1, Grok 4, лёгкого апгрейда Claude Sonnet — вторая половина 2025‑го в ИИ выглядела спокойной. Запуск Gemini 3 эту спокойную картину обнулил.
Новый флагман Google:
- резко вырвался вперёд на ряде ключевых бенчмарков;
- показал лучшую на рынке многомодальную «осведомлённость»;
- продемонстрировал прорыв в интеграции модели, UI и агентных возможностей;
- и стал первой моделью Google, которая по совокупности параметров реально затмевает OpenAI.
Это не просто «очередная версия», а демонстрация того, что Scaling Law ещё жив, а Google способен вернуться в роль технологического «императора», играя сразу на всех фронтах — от ядерной архитектуры до UX.
01. Бенчмарки: не +2–3%, а разрыв в поколение
Вокруг тестов ИИ‑моделей уже давно шутят: все «натаскиваются», а реальные различия минимальны. Gemini 3 ломает этот шаблон.
Humanity’s Last Exam (HLE)
HLE задуман как «последний экзамен человечества» — проверка способности модели решать самые сложные задачи на уровне top‑экспертов.
- Gemini 2.5 Pro: 21,6%
- Claude Sonnet 4.5: 13,7%
- Gemini 3 Pro:
- 37,5% — без инструментов,
- 45,8% — с инструментами.
Почти двукратный рост по сравнению с предыдущей версией — редкость для зрелого рынка.
ARC‑AGI‑2: тест «флюидного интеллекта»
ARC‑AGI‑2 (от Франсуа Шолле) — один из самых жёстких бенчмарков, измеряющий способность:
- решать совершенно новые, не виденные в тренинге задачи;
- работать с абстракцией и переносом, а не только с меморизацией.
Результаты:
- Gemini 2.5 Pro: 4,9%
- GPT‑5.1: 17,6%
- Gemini 3 Pro: 31,1%
По словам самого Шолле, Gemini 3 Pro и Deep Think на ARC v2 вдвое превзошли предыдущий SOTA, и это стало для него «приятным, но неожиданным сюрпризом». Время решения лучших задач — 772 токена и 188 секунд, почти на уровне человеческого жюри (в среднем 147 секунд).
Фактически, Gemini 3 впервые показывает зрелые признаки «жидкого интеллекта» в задачах, не покрытых обучающими данными.
Математика: MathArena Apex
Новый соревновательный бенчмарк для сложной математики:
- Gemini 2.5 Pro: 0,5%
- Claude Sonnet 4.5: 1,6%
- GPT‑5.1: 1,0%
- Gemini 3 Pro: 23,4%
От «единих процентов» к более чем одной пятой задач — это не косметическое улучшение, а переход в другую лигу.
Мультимодальность: сильнейшая зона Google
На поле, где Google традиционно силён — понимание картинок, видео, интерфейсов — Gemini 3 доминирует.
- MMMU‑Pro: 81,0%
- CharXiv Reasoning: 81,4% — выше основных конкурентов.
- ScreenSpot-Pro (понимание скриншотов и UI):
- Gemini 3: 72,7%
- вдвое выше Claude Sonnet 4.5,
- в двадцать раз выше GPT‑5.1.
Это критически важно для будущих агентов, управляющих графическими интерфейсами: от десктопов до веб‑приложений.
02. Код и агенты: из слабого места в конкурентное преимущество
Исторически у Google кодогенерация была слабой стороной: модели часто уступали OpenAI и Anthropic в реальных инженерных задачах. Gemini 3 меняет расклад.
SWE‑Bench Verified
На бенчмарке «настоящего софта» (фиксы в реальных репозиториях):
- Gemini 3: 76,2%
- Claude: 77,2%
Здесь Google всё ещё чуть позади, но…
LiveCodeBench и инструментальные тесты
- LiveCodeBench: Gemini 3 обходит Grok 4.1 более чем на 200 баллов.
- 12‑Bench (работа с инструментами / API):
- Gemini 2.5 Pro: 54,9%
- Gemini 3 Pro: 85,4%
- Terminal-Bench 2.0 (поведение в терминале):
- Gemini 3: 54,2%
- на 11 п.п. выше ближайшего конкурента.
Связка:
- понимание экранов (ScreenSpot),
- хорошее ощущение UI,
- развитая работа с инструментами
делает Gemini 3 особенно сильным в реальном окружении разработчика, а не только в синтетических задачах.
Design Arena и «смерк переднего фронта»
В сообществе разработчиков Design Arena — это своего рода онлайн‑«олимпиада» по реальному кодингу, от веба до 3D.
- Gemini 3 Pro — #1 в общем зачёте,
- лидирует в 4 из 5 категорий:
- сайты,
- игры,
- 3D,
- UI‑компоненты.
Ключевой момент: модель не только «пишет рабочий код», но и демонстрирует:
- осмысленный responsive‑дизайн,
- адекватный выбор палитры и типографики,
- аккуратную анимацию,
- учёт доступности (a11y).
Gemini 3 обучали на:
- больших массивах изображений,
- видео,
- HTML/CSS/JS/веб‑данных.
То есть он учился не только «как написать код», но и «какие интерфейсы считаются хорошими». Отсюда эффект: модель выступает почти как универсальный «фуллстек‑дизайнер‑разработчик».
03. Generative UI: когда модель сама рисует интерфейс под запрос
Один из наиболее ощутимых для пользователя прорывов — концепция Generative UI:
- вместо того чтобы вернуть только текстовый ответ, модель динамически генерирует интерфейс, подходящий к задаче;
- UI адаптируется к:
- возрасту аудитории,
- уровню подготовки,
- контексту использования.
Пример с презентации Google: вопрос «Как работает РНК‑полимераза?»
Gemini 3 не просто пишет объяснение, а:
- создаёт интерактивный модуль:
- визуализация,
- кликабельные элементы,
- шаговые объяснения;
- для ребёнка 5 лет:
- крупные элементы,
- яркие цвета,
- минимум терминов,
- игровая механика;
- для взрослого:
- высокая информационная плотность,
- схемы,
- научные термины,
- ссылки на источники.
В многоходовом диалоге модель:
- постепенно выучивает вкусы пользователя (любовь к минимализму или, наоборот, к анимациям);
- подстраивает:
- плотность информации,
- стиль интерфейса,
- визуальные эффекты.
Результат — интерфейсы, которые чувствуются «сделанными дизайнером», а не шаблонными. Отсюда и разговоры о том, что роль классического фронтендера начинает «растворяться» внутри модели.
04. Модель = агент: Gemini 3 как универсальный исполнитель
Один из ключевых трендов 2025 года — переход от «модели» к агенту:
- модель умеет не только генерировать текст, но:
- планировать задачи,
- вызывать внешние инструменты и API,
- отслеживать состояние,
- рефлексировать и улучшать собственное решение.
OpenAI показала направление через AgentKit и «AI‑внутренние приложения». Но до Gemini 3 ни одна крупная модель не имела в consumer‑интерфейсе полноценной универсальной агентной прослойки.
Google решила рискнуть первой:
- Gemini 3 из коробки в пользовательском UI имеет агентные сценарии;
- по Model Card:
- модель дополнительно обучена с помощью RL,
- использовались датасеты по многошаговому рассуждению, решению задач, теорем.
Функционально это выражается в:
- значительно улучшенном function calling (+30% к Gemini 2.5 Pro);
- более точном выборе инструментов;
- умении комбинировать несколько инструментов в одном workflow.
Пример: запрос «помоги выучить новый язык».
- Классический LLM:
- даёт план,
- список ресурсов,
- может сгенерировать упражнения.
- Gemini 3:
- строит целую систему обучения:
- карточки с интервальным повторением,
- грамматические тренажёры с немедленной обратной связью,
- упражнения по произношению с распознаванием речи,
- дашборд прогресса.
То есть модель выступает как продукт‑менеджер, методист и разработчик AI‑сервиса одновременно.
При этом она глубоко интегрирована в экосистему Google:
- папка My Stuff собирает все созданные моделью артефакты:
- изображения,
- видео,
- отчёты;
- прямо из интерфейса доступны десятки миллиардов товарных карточек, что превращает модель в связующий слой между поиском, коммерцией и пользовательскими задачами.
05. Scaling Law жив: что говорит Gemini 3 о границах масштабирования
Последние год‑полтора в ИИ шли активные споры: не «сломался» ли Scaling Law?
- данные дорожают и иссякают,
- вычисления растут экспоненциально,
- прирост качества выглядит всё менее впечатляющим.
Ответ Google через Gemini 3:
«Scaling не исчерпан».
Один из лидеров DeepMind, Oriol Vinyals, после релиза писал:
- «Секрет Gemini 3 — в улучшениях преподготовки и постобучения»;
- «Post‑training — практически девственная область, там ещё очень много пространства для алгоритмических прорывов»;
- «Вопреки популярному мнению „скейлинг закончился“, скачок от 2.5 к 3.0 — один из крупнейших, что мы видели. Никакого потолка не видно».
По открытой информации:
- Gemini 3 Pro — это не просто дообученный 2.5,
а новая архитектура на базе sparse Mixture‑of‑Experts (MoE); - DeepMind с весны придерживается политики:
- ключевые статьи задерживаются минимум на 6 месяцев,
- поэтому детали архитектуры и тренировочного режима придётся восстанавливать по косвенным признакам.
Тем не менее по пазлам видно:
- в Veo 3 и Genie 3 можно проследить рывок в мультимодальности;
- проекты вроде AI Co‑scienstist, SIMA 2 — задел в области агентного автотренинга;
- работы DiscoRL (Nature) и Alpha Evolve — исследования непрерывного обучения, самоэволюции агентов.
В итоге:
- высокие баллы на ScreenSpot и других MM‑бенчмарках дают агентам надёжную «сенсорную» базу;
- agentic‑loop поверх этих восприятий обеспечивает устойчивое планирование и выполнение;
- RL‑инновации (DiscoRL и др.) делают самообучение агентов эффективным и масштабируемым.
Это не «один трюк», а сведение воедино цепочки улучшений от восприятия до планирования — и даёт тот самый «мультипликативный эффект», который конкуренты, оптимизирующие один блок, воспроизвести не могут.
Но и ограничения видны
Франсуа Шолле указывает на важный парадокс:
- Gemini 3 Pro показывает очень высокий результат на ARC v2,
- но при этом на более простом ARC v1 по‑прежнему делает грубые ошибки.
Кроме того:
- задачи, решаемые Gemini 3 Pro за 2000 «thinking‑tokens»,
в режиме Deep Think могут потребовать до 300 000 токенов и всё равно не решиться.
Вывод Шолле:
- рост «флюидного интеллекта» неравномерен;
- улучшения концентрируются там, где:
- есть достаточно репрезентативные тренировочные данные,
- есть чёткий, формализованный feedback‑сигнал.
То есть Scaling Law работает, но не магическим образом везде сразу.
06. Стоимость: дорогой премиум или экономия на глубине?
По API Gemini 3 Pro — один из самых дорогих моделей на рынке:
- $2 за 1M входных токенов,
- $12 за 1M выходных токенов.
Но есть нюанс:
- модель заметно эффективнее по расходу токенов;
- в тех же задачах использует меньше контекста, чем многие конкуренты (включая локальных игроков вроде Kimi K2).
Оценка аналитиков:
- реальный рост стоимости для пользователя — порядка +12%;
- если учесть, что:
- Gemini 3 чаще решает задачу с первого раза,
- и сокращает число перегенераций/перепромптов,
то общая стоимость владения (TCO) для сложных задач может оказаться даже ниже, чем у более дешёвых, но слабых моделей.
07. «Цифровой коллега» вместо чат‑бота: что изменилось по сути
Один из лучших публичных резюме эффекта Gemini 3 дал профессор Уортона Итан Моллик:
«Три года назад мы восхищались тем, что машина может написать стихотворение про выдр.
Меньше чем через тысячу дней я спорю со „сотрудником“, который сам построил для себя исследовательскую среду, о статистических методах.
Эпоха чат‑ботов сменяется эпохой цифровых коллег».
Ключевой сдвиг:
- роль человека в контуре human in the loop меняется:
- было: «человек, исправляющий ошибки ИИ»;
- становится: «человек, который ставит задачи и управляет работой ИИ».
Gemini 3, при всей своей неидеальности, — один из первых реальных примеров такого перехода:
- модель не просто отвечает,
- она:
- строит среды,
- проектирует интерфейсы,
- организует workflow,
- собирает и структурирует артефакты.
Именно это делает её релиз похожим не на «ещё одну модель», а на новую ступень в эволюции рабочих инструментов.
Для OpenAI это означает начало настоящей конкурентной ночи без сна.
Для рынка в целом — подтверждение, что:
- эпоха «одного безусловного лидера» закончилась;
- а гонка AGI возвращается в формат полноценной многополярной конкуренции, где Google больше не выглядит догоняющим.
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/