188 подписчиков

О модели Gemini 2.5 Pro

8 апреля8 апр

2 мин

Google выкатил Gemini 2.5 Pro ещё в марте 2025 года. С тех пор модель прошла несколько итераций — и сейчас это уже совсем другой продукт. Решил разобраться что внутри и где реально работает. Начну с того, что зацепило больше всего. Контекстное окно — главный козырь 1 миллион токенов — крупнейшее среди коммерчески доступных моделей. Для сравнения: GPT-4o — 128K, Claude Opus 4.6 — 200K. При этом recall на уровне 99,7% при полном миллионе токенов. Это значит, что целая кодовая база, десятки тысяч строк документации или часовое видео — всё в одном запросе без разбиения на чанки. ✅ Бенчмарки: Математика и наука — Gemini 2.5 Pro лидирует. GPQA Diamond: 84,0% против 78,2% у Claude 3.7 и 71,4% у GPT-4.5. На Humanity's Last Exam — 18,8%, лучший результат среди всех моделей Веб-разработка — #1 на WebDev Arena. Инженер Simon Willison провёл рефакторинг кодовой базы: модель самостоятельно определила 18 файлов для изменения, весь проект — 45 минут Видео — нативная обработка до 1 часа видео однов

Начну с того, что зацепило больше всего.

Контекстное окно — главный козырь

1 миллион токенов — крупнейшее среди коммерчески доступных моделей. Для сравнения: GPT-4o — 128K, Claude Opus 4.6 — 200K. При этом recall на уровне 99,7% при полном миллионе токенов. Это значит, что целая кодовая база, десятки тысяч строк документации или часовое видео — всё в одном запросе без разбиения на чанки.

✅ Бенчмарки:

Математика и наука — Gemini 2.5 Pro лидирует. GPQA Diamond: 84,0% против 78,2% у Claude 3.7 и 71,4% у GPT-4.5. На Humanity's Last Exam — 18,8%, лучший результат среди всех моделей

Веб-разработка — #1 на WebDev Arena. Инженер Simon Willison провёл рефакторинг кодовой базы: модель самостоятельно определила 18 файлов для изменения, весь проект — 45 минут

Видео — нативная обработка до 1 часа видео одновременно с аудио. VideoMME: 84,8% — state-of-the-art результат. Реальный use case: загружаешь запись митинга, получаешь структурированный анализ с таймкодами

Цена — $1,25 за 1М input-токенов против $4,00 у Claude Opus 4.6. Лучшее соотношение цена/качество среди флагманских моделей

❌ Где проседает:

Debugging — пользователи на Reddit и Hacker News фиксируют одну и ту же проблему: модель забывает что сделала, выдаёт неполные файлы, не следует инструкциям на длинных сессиях. Для сложных GitHub issues Claude 3.7 Sonnet (70,3% на SWE-bench) пока впереди — 63,8% у Gemini

Hallucination rate — 88% среди неправильных ответов. Выше чем у GPT-5.1 (81%) и заметно выше Grok 4 (64%). Для критических приложений нужен дополнительный слой валидации

Длинные промпты — после порога ~30K символов модель начинает терять контекст. Несколько пользователей зафиксировали удаление целых блоков аргументации из статей

Thinking tokens — при включённом режиме рассуждений латентность становится непредсказуемой. Плюс thinking-токены входят в стоимость, даже если в ответе только summary

Мой опыт:

Модель отлично подходит для задач с большим контекстом, мультимодального анализа и веб-разработки. Для сложного кодинга и точного следования инструкциям в длинных сессиях пока лучше Claude или Codex

Сам в повседневной работе предпочитаю другие модели. Но, Gemini использует моя команда в проекте речевой аналитики. Осным преимуществом модели и почему ее используют является огромное контекстное окно и нативная работа с аудио. Для этих задач альтернатив пока немного. Об альтернативах расскажу позднее.

Ссылочка на чат модели.