39 подписчиков

Google I/O 2025: Новая эра ИИ для разработчиков — Gemini 2.5, мультимодальные модели и мощные инструменты

28 мая 202528 мая 2025

4 мин

На конференции Google I/O 2025 компания Google представила масштабное обновление своей платформы искусственного интеллекта, предоставив разработчикам новые модели и инструменты для создания приложений ИИ следующего поколения. Мэт Веллосо, вице-президент по продуктам платформы ИИ в Google DeepMind, подчеркнул: «Разработчики — архитекторы будущего, и мы хотим дать им всё необходимое для воплощения самых амбициозных идей». Главным событием стал релиз обновлённой версии модели Gemini 2.5 Flash Preview. Google сделала акцент на высокой производительности при решении сложных задач кодирования и рассуждений, а также оптимизации для максимальной скорости и экономии ресурсов. Помимо увеличенной мощности, Google внедряет новые механизмы контроля за работой моделей: например, разработчики теперь могут использовать «сводки мыслей» и «бюджеты на мышление», чтобы лучше управлять расходами и логикой вывода модели. В настоящее время версии Gemini 2.5 Flash и 2.5 Pro доступны в предварительном просмотр

Оглавление

Gemini 2.5 Flash — Быстрее, умнее, удобнее
Расширение модельного портфеля — для любых задач
Новые инструменты и платформы для разработчиков

Gemini 2.5 Flash — Быстрее, умнее, удобнее

Главным событием стал релиз обновлённой версии модели Gemini 2.5 Flash Preview. Google сделала акцент на высокой производительности при решении сложных задач кодирования и рассуждений, а также оптимизации для максимальной скорости и экономии ресурсов. Помимо увеличенной мощности, Google внедряет новые механизмы контроля за работой моделей: например, разработчики теперь могут использовать «сводки мыслей» и «бюджеты на мышление», чтобы лучше управлять расходами и логикой вывода модели.

В настоящее время версии Gemini 2.5 Flash и 2.5 Pro доступны в предварительном просмотре в Google AI Studio и Vertex AI, а с июня ожидается их более широкое распространение.

Расширение модельного портфеля — для любых задач

Google расширила линейку ИИ-моделей, учитывая разные потребности разработчиков:

Gemma 3n — мультимодальная модель, работающая с текстом, аудио, изображениями и видео. Оптимизирована для мобильных и портативных устройств, она призвана стать универсальным помощником.
PaliGemma — модель языка зрения для задач, требующих понимания и описания визуального контента, например, генерация субтитров и ответы на вопросы по изображениям.
Gemini Diffusion — экспериментальная модель для сверхбыстрой генерации изображений, работающая в 5 раз быстрее предыдущих флагманов Google.
Lyria RealTime — интерактивная модель для генерации и исполнения музыки в реальном времени, открывающая новые горизонты для аудиокреативности.
MedGemma — мощная открытая модель для медицины, способная анализировать как медицинский текст, так и изображения, что особенно ценно для разработчиков приложений в здравоохранении.
SignGemma — будущая модель для перевода жестового языка в устный текст, призванная помочь глухим и слабослышащим пользователям и интегрироваться в новые сервисы.

Новые инструменты и платформы для разработчиков

Google усиливает экосистему не только моделями, но и продвинутыми инструментами:

Обновлённый Colab с агентной функциональностью — теперь Colab сможет автоматически выполнять задачи в ноутбуках, исправлять ошибки и улучшать код по запросу разработчика.
Gemini Code Assist — умный помощник для кодирования, доступный как индивидуально, так и для команд на GitHub, с контекстным окном в 1 миллион токенов для глубокого понимания кода.
Firebase Studio — новое облачное рабочее пространство, позволяющее быстро превращать дизайн из Figma в полнофункциональные ИИ-приложения с автоматическим созданием backend.
Асинхронный агент кодирования Jules — помощник, который берет на себя рутинные задачи, исправляет баги и пишет первичные версии функций, интегрируясь напрямую с GitHub и виртуальными машинами в облаке.
Stitch — инструмент для генерации высококачественных UI-дизайнов и соответствующего кода по описанию на естественном языке или по изображению, с возможностью быстрой итерации и экспорта в CSS, HTML или Figma.

Инновации в API Gemini и генеративных медиамоделях

Google AI Studio стала площадкой для быстрой работы с передовыми моделями Gemini 2.5 и генеративными медиа-моделями, такими как Imagen и Veo. Интеграция с GenAI SDK позволяет создавать веб-приложения по текстовым, графическим и видео подсказкам с максимальной скоростью.

В Gemini 2.5 Flash Preview появились функции Native Audio Output и Live API, поддерживающие:

Проактивное видео с распознаванием ключевых событий
Проактивное аудио с фильтрацией нерелевантных звуков
Аффективный диалог, способный реагировать на эмоции пользователя

Асинхронные вызовы функций помогают создавать более отзывчивые приложения, не блокируя основной поток общения.

Взгляд в будущее: просмотр веб-страниц и поддержка открытых протоколов

Одной из самых интересных возможностей стал Computer Use API — инструмент, который позволяет приложениям управлять браузером и другими программными инструментами под руководством ИИ. Сейчас эта функция доступна доверенным тестировщикам, а полноценный релиз ожидается в этом году.

Google также представила экспериментальную поддержку URL Context — извлечение полного контекста страницы по URL для расширенного поиска и анализа.

Кроме того, Gemini API и SDK теперь поддерживают Model Context Protocol (MCP) — открытый стандарт для удобной работы с разными инструментами ИИ, что облегчает интеграцию и расширение функционала.

Заключение

На Google I/O 2025 компания подтвердила своё лидерство в области искусственного интеллекта, предложив разработчикам набор моделей и инструментов, которые не только мощны и универсальны, но и удобны в применении. От обновлённого Gemini 2.5 до мультимодальных моделей, интерактивных агентов и новых API — всё это призвано ускорить создание инновационных ИИ-приложений и сделать искусственный интеллект доступным для самых разных задач и пользователей.