24 подписчика

Gemini 3 Flash: Революция в цене и производительности ИИ

25 декабря 202525 дек 2025

1 мин

Недавно Google представила Gemini 3 Flash, демонстрирующую в 4-9 раз более высокую эффективность по сравнению с другими передовыми моделями, в зависимости от конкретных показателей ИИ и стоимости API. Венчурный инвестор Томаш Тунгуз (Theory Ventures) отмечает, что это привело к снижению стоимости "единицы интеллекта" на 98% за последние 33 месяца. Для оценки он использовал метрику "цена за балл качества", показывающую стоимость получения единицы производительности на бенчмарках. В марте 2023 года для GPT-4 этот показатель составлял $65, а для Gemini 3 Flash сейчас – всего $1,10. Gemini 3 Flash предлагает цену $0,50 за миллион входных токенов и $3,00 за миллион выходных, при этом отставая от лучших моделей в среднем на 9,2% по качеству. Однако, ключевым фактором является соотношение производительности к цене. Согласно расчетам Тунгуза, Gemini 3 Flash обеспечивает 30,3 балла качества на каждый потраченный доллар, в то время как Gemini 3 Pro – 7,8, GPT-5.2 – 6,6, а Claude Opus 4.5 – 3,5.

Для оценки он использовал метрику "цена за балл качества", показывающую стоимость получения единицы производительности на бенчмарках. В марте 2023 года для GPT-4 этот показатель составлял $65, а для Gemini 3 Flash сейчас – всего $1,10.

Gemini 3 Flash предлагает цену $0,50 за миллион входных токенов и $3,00 за миллион выходных, при этом отставая от лучших моделей в среднем на 9,2% по качеству. Однако, ключевым фактором является соотношение производительности к цене. Согласно расчетам Тунгуза, Gemini 3 Flash обеспечивает 30,3 балла качества на каждый потраченный доллар, в то время как Gemini 3 Pro – 7,8, GPT-5.2 – 6,6, а Claude Opus 4.5 – 3,5. Разница между Gemini 3 Flash и флагманом Anthropic почти девятикратна.

Методология Тунгуза включала анализ 20 бенчмарков (от MMLU-Pro и MATH-Hard до SWE-bench Verified и ARC-AGI-1), определение лучших результатов для каждой модели и расчет среднего отставания. Стоимость токена рассчитывалась как средневзвешенная (80% входных + 20% выходных), отражающая типичное соотношение в реальных запросах. Итоговая метрика – это средневзвешенная цена, деленная на композитный балл качества.

Тунгуз характеризует ценовую политику Google как "ликвидационные цены", предлагая огромную производительность по ценам распродажи. Возможность такой ценовой стратегии объясняется использованием собственных чипов TPU и контролем над инфраструктурой дата-центров.

Данные Andreessen Horowitz подтверждают эту тенденцию, вводя термин LLMflation для описания ежегодного десятикратного снижения стоимости инференса – темпы, превосходящие закон Мура. По их оценкам, обработка всей речи человека за год моделью класса GPT-3 сегодня стоит около $2, а анализ всего кода ядра Linux – менее доллара. Несмотря на более высокие затраты для топовых моделей, общая тенденция ясна: задачи, которые ранее были экономически невыгодными, становятся обыденностью.

Ну что ж, похоже, скоро мы сможем обучать ИИ на остатках от кофе и печенья. И это, знаете ли, прогресс!