1090 подписчиков

Gemini 3.5 Flash: новая эра скорости и эффективности мультимодальных LLM

29 мая29 мая

2 мин

19 мая Google представила Gemini 3.5 Flash — модель, которая переворачивает привычную иерархию языковых моделей и знаменует собой новую эру в развитии искусственного интеллекта. Впервые в истории линейки облегчённая Flash-версия превзошла флагманский Gemini 3.1 Pro по ключевым метрикам программирования и агентских задач. Это не просто инкрементальное улучшение — это фундаментальная смена парадигмы в подходе к разработке больших языковых моделей, демонстрирующая, что эффективность архитектуры важнее простого наращивания параметров. Скорость вывода Gemini 3.5 Flash составляет впечатляющие 289 токенов в секунду по данным независимого сервиса Artificial Analysis, что делает её самой быстрой моделью на рынке. Для сравнения: Claude Opus 4.7 выдаёт всего 67 токенов в секунду, а GPT-5.5 работает ещё медленнее. Разрыв более чем в четыре раза — это не просто цифры в бенчмарках, это качественно новый пользовательский опыт, где задержки становятся практически незаметными. Модель развёрнута на TPU

Скорость вывода Gemini 3.5 Flash составляет впечатляющие 289 токенов в секунду по данным независимого сервиса Artificial Analysis, что делает её самой быстрой моделью на рынке. Для сравнения: Claude Opus 4.7 выдаёт всего 67 токенов в секунду, а GPT-5.5 работает ещё медленнее. Разрыв более чем в четыре раза — это не просто цифры в бенчмарках, это качественно новый пользовательский опыт, где задержки становятся практически незаметными. Модель развёрнута на TPU 8i с использованием инновационной технологии RadixAttention для эффективной пакетной обработки запросов, что позволяет достичь такой беспрецедентной производительности при сохранении высокого качества генерации и минимальных затратах на инфраструктуру.

Мультимодальные возможности модели впечатляют не меньше скоростных характеристик: 83,6% точности на MMMU-Pro и 84,2% на CharXiv — это лучшие результаты в своей категории, превосходящие конкурентов. Gemini 3.5 Flash построена на базе архитектуры рассуждений Gemini 3 Flash с улучшенными уровнями размышления, позволяющими динамически балансировать качество, стоимость и задержку в зависимости от конкретной задачи. Это критически важно для продакшен-применений, где экономическая эффективность напрямую определяет масштабируемость решения и возможность его коммерческого использования.

Google продемонстрировала практические возможности модели эффектным и показательным примером: ИИ-агент на базе Gemini 3.5 Flash самостоятельно собрал полностью работающую операционную систему всего за 12 часов. Это не демонстрация в контролируемых лабораторных условиях — это реальная комплексная задача, требующая стратегического планирования, написания тысяч строк кода, систематической отладки и интеграции множества компонентов. Модель уже доступна через Gemini app, AI Mode в Google Search, Google AI Studio, платформу Antigravity 2.0 и Gemini API для миллиардов пользователей по всему миру, что обеспечивает беспрецедентный масштаб внедрения.

Стратегия Google отражает фундаментальный сдвиг в индустрии: от гонки параметров и размеров моделей к оптимизации процесса inference и эффективности вычислений. Архитектурные решения, вдохновлённые передовыми подходами из технического отчёта Deepseek V4, позволяют достичь frontier-производительности на одном TPU 8i. Это революционное достижение означает, что барьер входа для развёртывания передовых ИИ-систем существенно снижается — компаниям больше не нужны огромные дорогостоящие кластеры для получения результатов уровня флагманских моделей, что демократизирует доступ к передовым технологиям.

Для разработчиков и бизнеса это открывает принципиально новые возможности: агентские рабочие процессы, автономное выполнение сложных многоэтапных задач и real-time мультимодальная обработка становятся экономически оправданными в продакшене. Эра компромиссов, когда скорость неизбежно требовала жертв в качестве, окончательно завершилась. 🚀

#Gemini35Flash #GoogleAI #LLM #ИскусственныйИнтеллект #МашинноеОбучение