На конференции Google I/O 2025 компания Google представила масштабное обновление своей платформы искусственного интеллекта, предоставив разработчикам новые модели и инструменты для создания приложений ИИ следующего поколения. Мэт Веллосо, вице-президент по продуктам платформы ИИ в Google DeepMind, подчеркнул: «Разработчики — архитекторы будущего, и мы хотим дать им всё необходимое для воплощения самых амбициозных идей».
Gemini 2.5 Flash — Быстрее, умнее, удобнее
Главным событием стал релиз обновлённой версии модели Gemini 2.5 Flash Preview. Google сделала акцент на высокой производительности при решении сложных задач кодирования и рассуждений, а также оптимизации для максимальной скорости и экономии ресурсов. Помимо увеличенной мощности, Google внедряет новые механизмы контроля за работой моделей: например, разработчики теперь могут использовать «сводки мыслей» и «бюджеты на мышление», чтобы лучше управлять расходами и логикой вывода модели.
В настоящее время версии Gemini 2.5 Flash и 2.5 Pro доступны в предварительном просмотре в Google AI Studio и Vertex AI, а с июня ожидается их более широкое распространение.
Расширение модельного портфеля — для любых задач
Google расширила линейку ИИ-моделей, учитывая разные потребности разработчиков:
- Gemma 3n — мультимодальная модель, работающая с текстом, аудио, изображениями и видео. Оптимизирована для мобильных и портативных устройств, она призвана стать универсальным помощником.
- PaliGemma — модель языка зрения для задач, требующих понимания и описания визуального контента, например, генерация субтитров и ответы на вопросы по изображениям.
- Gemini Diffusion — экспериментальная модель для сверхбыстрой генерации изображений, работающая в 5 раз быстрее предыдущих флагманов Google.
- Lyria RealTime — интерактивная модель для генерации и исполнения музыки в реальном времени, открывающая новые горизонты для аудиокреативности.
- MedGemma — мощная открытая модель для медицины, способная анализировать как медицинский текст, так и изображения, что особенно ценно для разработчиков приложений в здравоохранении.
- SignGemma — будущая модель для перевода жестового языка в устный текст, призванная помочь глухим и слабослышащим пользователям и интегрироваться в новые сервисы.
Новые инструменты и платформы для разработчиков
Google усиливает экосистему не только моделями, но и продвинутыми инструментами:
- Обновлённый Colab с агентной функциональностью — теперь Colab сможет автоматически выполнять задачи в ноутбуках, исправлять ошибки и улучшать код по запросу разработчика.
- Gemini Code Assist — умный помощник для кодирования, доступный как индивидуально, так и для команд на GitHub, с контекстным окном в 1 миллион токенов для глубокого понимания кода.
- Firebase Studio — новое облачное рабочее пространство, позволяющее быстро превращать дизайн из Figma в полнофункциональные ИИ-приложения с автоматическим созданием backend.
- Асинхронный агент кодирования Jules — помощник, который берет на себя рутинные задачи, исправляет баги и пишет первичные версии функций, интегрируясь напрямую с GitHub и виртуальными машинами в облаке.
- Stitch — инструмент для генерации высококачественных UI-дизайнов и соответствующего кода по описанию на естественном языке или по изображению, с возможностью быстрой итерации и экспорта в CSS, HTML или Figma.
Инновации в API Gemini и генеративных медиамоделях
Google AI Studio стала площадкой для быстрой работы с передовыми моделями Gemini 2.5 и генеративными медиа-моделями, такими как Imagen и Veo. Интеграция с GenAI SDK позволяет создавать веб-приложения по текстовым, графическим и видео подсказкам с максимальной скоростью.
В Gemini 2.5 Flash Preview появились функции Native Audio Output и Live API, поддерживающие:
- Проактивное видео с распознаванием ключевых событий
- Проактивное аудио с фильтрацией нерелевантных звуков
- Аффективный диалог, способный реагировать на эмоции пользователя
Асинхронные вызовы функций помогают создавать более отзывчивые приложения, не блокируя основной поток общения.
Взгляд в будущее: просмотр веб-страниц и поддержка открытых протоколов
Одной из самых интересных возможностей стал Computer Use API — инструмент, который позволяет приложениям управлять браузером и другими программными инструментами под руководством ИИ. Сейчас эта функция доступна доверенным тестировщикам, а полноценный релиз ожидается в этом году.
Google также представила экспериментальную поддержку URL Context — извлечение полного контекста страницы по URL для расширенного поиска и анализа.
Кроме того, Gemini API и SDK теперь поддерживают Model Context Protocol (MCP) — открытый стандарт для удобной работы с разными инструментами ИИ, что облегчает интеграцию и расширение функционала.
Заключение
На Google I/O 2025 компания подтвердила своё лидерство в области искусственного интеллекта, предложив разработчикам набор моделей и инструментов, которые не только мощны и универсальны, но и удобны в применении. От обновлённого Gemini 2.5 до мультимодальных моделей, интерактивных агентов и новых API — всё это призвано ускорить создание инновационных ИИ-приложений и сделать искусственный интеллект доступным для самых разных задач и пользователей.