54 подписчика

Google I/O 2025: Следующий Шаг в Эпоху Искусственного Интеллекта

21 мая21 мая

14 мин

Оглавление

Google I/O 2025: Следующий Шаг в Эпоху Искусственного Интеллекта
Прогресс Моделей и Инфраструктура
Модели Gemini: Улучшения и Доступность

Google I/O 2025: Следующий Шаг в Эпоху Искусственного Интеллекта

Добро пожаловать на Google I/O, где был представлен ряд значимых достижений в области искусственного интеллекта и продемонстрировано, как эти инновации интегрируются в продукты Google и влияют на различные аспекты нашей жизни. За прошедший год компания анонсировала более десятка моделей и исследовательских прорывов, а также выпустила свыше 20 крупных продуктов и функций на базе ИИ. Особое внимание было уделено ускорению прогресса моделей, что привело к существенному росту их производительности и возможностей.

Прогресс Моделей и Инфраструктура

Модели Gemini: Улучшения и Доступность

На конференции были отмечены впечатляющие улучшения моделей Gemini. Показатели ELO, служащие одним из способов оценки прогресса, выросли более чем на 300 пунктов с момента выпуска первого поколения Gemini Pro. Обновленная версия Gemini 2.5 Pro заняла лидирующие позиции в рейтингах LM Arena во всех категориях, превзойдя предыдущую версию на 142 пункта ELO и достигнув первого места в WebDev Arena.

Также был представлен обновленный Gemini 2.5 Flash — наиболее эффективная и востребованная модель, особенно среди разработчиков, ценящих ее скорость и низкую стоимость. Новая версия Flash улучшена практически по всем параметрам, демонстрируя прогресс в рассуждениях, работе с кодом и обработке длинных контекстов. По своим показателям она уступает только Gemini 2.5 Pro в рейтинге LM Arena. Доступность новой версии Flash ожидается в начале июня, а Pro — вскоре после этого.

Инфраструктура: TPU Ironwood

Для обеспечения работы и масштабирования сложных моделей была представлена седьмая версия процессора TPU под кодовым названием Ironwood. Это первый разработанный чип, способный эффективно поддерживать как процесс "мышления", так и инференс (вывод) в масштабе. Ironwood обеспечивает в 10 раз более высокую производительность по сравнению с предыдущим поколением и обладает впечатляющей вычислительной мощностью в 42,5 эксафлопс на кристалл. Эти чипы станут доступны клиентам Google Cloud позднее в этом году.

Новые Продукты и Возможности

Новые ИИ-Сервисы и Функции

Стремительный рост внедрения ИИ наблюдается во всех продуктах Google. Приложение Gemini уже насчитывает более 400 миллионов активных пользователей в месяц, демонстрируя сильный рост и вовлеченность, особенно с моделями 2.5. AI-обзоры в Поиске Google ежемесячно используют более 1,5 миллиарда пользователей, делая Google Поиск продуктом, который знакомит с генеративным ИИ больше людей, чем любой другой в мире.

Google Beam: Связь в 3D

На конференции анонсирована новая AI-ориентированная платформа для видеосвязи под названием Google Beam. Используя передовую видеомодель на базе ИИ, Beam способна преобразовать стандартный 2D-видеопоток в реалистичный 3D-опыт. Для этого используется массив из шести камер, захватывающих изображение с разных ракурсов. Искусственный интеллект объединяет эти потоки и отображает пользователя на 3D-дисплее светового поля с практически идеальным отслеживанием положения головы (с точностью до миллиметра) и частотой 60 кадров в секунду в реальном времени. Результат — гораздо более естественное и глубоко иммерсивное общение. Первые устройства Google Beam, созданные в сотрудничестве с HP, будут доступны для ранних клиентов позднее в этом году.

Перевод Речи в Google Meet

Многие технологии, разработанные изначально для проекта Starline (предшественника Google Beam), постепенно интегрируются в другие продукты, например, в Google Meet. Одним из таких примеров является перевод речи в реальном времени, помогающий преодолеть языковые барьеры. Эта функция позволяет, например, без труда забронировать жилье в Южной Америке, даже не владея местным языком. Перевод между английским и испанским языками уже доступен подписчикам Google Meet, а поддержка других языков появится в ближайшие недели.

Агентские Возможности и Project Mariner

Google активно работает над созданием универсального AI-ассистента, который может понимать окружающий мир (Project Astra) и выполнять задачи в цифровой среде (Project Mariner). Project Mariner — это агент, способный взаимодействовать с интернетом и решать задачи. Он был выпущен как прототип в декабре и с тех пор значительно улучшен. Теперь он поддерживает многозадачность, управляя до 10 одновременными задачами. Кроме того, появилась функция "Покажи и повтори" (Teach and Repeat), которая позволяет пользователю один раз продемонстрировать выполнение задачи, а агент учится составлять план для аналогичных задач в будущем.

Возможности Project Mariner по использованию компьютера станут доступны разработчикам через API Gemini этим летом. Агентские функции также начинают интегрироваться в Chrome, Поиск и приложение Gemini.

Gemini Live: Интерактивный Ассистент

Исследовательский проект Project Astra уже начинает проявляться в продуктах, в частности, в Gemini Live. Эта функция добавляет возможность использования камеры и совместного доступа к экрану, позволяя обсуждать то, что вы видите. Пользователи находят множество применений Gemini Live — от подготовки к собеседованию до тренировок к марафону. Функции Gemini Live уже доступны бесплатно для всех пользователей Android и iOS и будут постепенно подключаться к другим приложениям Google, таким как Календарь, Карты, Google Keep и Google Задачи. Это позволит, например, просто навести камеру на записку и попросить Gemini Live добавить событие в календарь или превратить написанный от руки список покупок в аккуратный перечень в Google Keep. Разговоры в Gemini Live в пять раз длиннее, чем текстовые диалоги в приложении, что свидетельствует о его интуитивности и вовлеченности. Gemini Live поддерживает более 45 языков в более чем 150 странах.

ИИ в Существующих Продуктах

Преображение Повседневных Приложений

Искусственный интеллект активно интегрируется в наиболее популярные и широко используемые продукты Google, значительно расширяя их возможности и делая их более полезными.

ИИ в Поиске Google

Google Поиск подвергся полному переосмыслению с появлением нового AI-режима, предлагающего комплексный поиск на базе ИИ с более развитыми способностями к рассуждению. В этом режиме пользователи могут задавать более длинные и сложные запросы (в два-три раза длиннее традиционных) и продолжать диалог с помощью дополнительных вопросов. AI-режим динамически адаптирует пользовательский интерфейс, комбинируя текст, изображения, ссылки, карты и другие элементы для ответа на конкретный запрос. Он не просто предоставляет информацию, но и вносит новый уровень интеллекта в поиск.

В AI-режим также интегрированы живые возможности Project Astra, что привело к появлению функции Search Live. Используя камеру телефона, Поиск может "видеть" то, что видите вы, и предоставлять полезную информацию в реальном времени, например, помогая с домашним ремонтом или школьным заданием. Это похоже на видеозвонок с Поиском.

ИИ также помогает в онлайн-шопинге. Новая функция "Примерить" (Try-On) позволяет виртуально примерить одежду, загрузив свою фотографию. Для этого была создана специальная модель генерации изображений, обученная на данных о человеческом теле и посадке одежды. После выбора вещи, ИИ может помочь найти ее по желаемой цене и даже приобрести ее с помощью новой функции агентской оплаты (agentic checkout). Пользователь может отслеживать изменение цены, устанавливая целевую сумму, и получать уведомление при ее снижении. Затем агент оплаты может добавить товар нужного размера и цвета в корзину и безопасно оплатить его через Google Pay всего одним касанием, под полным контролем пользователя. Функции виртуальной примерки и агентской оплаты появятся в ближайшие месяцы.

Персонализация и Agent Mode в Приложении Gemini

Для того чтобы исследования в области ИИ стали по-настоящему полезными, важна персонализация. Google работает над внедрением концепции "персонального контекста". С разрешения пользователя модели Gemini смогут использовать соответствующую информацию из других приложений Google (таких как Gmail, Диск, Документы и другие) приватным, прозрачным образом и под полным контролем пользователя.

В приложении Gemini появится режим Агента (Agent Mode). Например, если вам нужно найти квартиру для троих с определенным бюджетом и требованиями (стиральная машина или прачечная рядом), Агентский режим может автоматически искать объявления на сайтах (вроде Zillow), используя Project Mariner для применения специфических фильтров. Если вы хотите посмотреть квартиру, Gemini может использовать MCP (какую именно технологию обозначает эта аббревиатура в данном контексте, не уточнено в источнике, но подразумевается технология доступа к объявлениям и их обработки) для доступа к информации и даже запланировать просмотр от вашего имени. Экспериментальная версия Агентского режима скоро появится для подписчиков приложения Gemini.

Глубокие Исследования

Помимо быстрого взаимодействия, иногда требуется глубокое исследование сложной темы. Функция "Глубокие исследования" получила обновление, позволяющее загружать собственные файлы для руководства исследовательским агентом. В скором времени появится возможность проводить исследования, используя информацию из Google Drive и Gmail.

ИИ в Gmail: Персонализированные Смарт-ответы

Популярная функция "Умные ответы" (Smart Reply) в Gmail получит развитие в виде персонализированных Умных ответов. Идея в том, чтобы ответы звучали как вы. Например, если друг спрашивает совета о поездке, которую вы уже совершали, Gemini может автоматически сгенерировать ответ, проанализировав ваши заметки в Drive, прошлые письма с бронированиями и маршруты в Google Docs. Gemini сможет подражать вашим обычным приветствиям, тону, стилю и любимым словам, добавляя детали из ваших прошлых поездок, например, рекомендации по времени в пути. Эта функция будет доступна в Gmail этим летом для подписчиков.

Gemini в Экосистеме Android

В ближайшие месяцы Gemini появится на носимых устройствах (умных часах), в автомобильных панелях и даже на телевизорах, чтобы предоставить полезного AI-ассистента, где бы вы ни находились.

Творчество и Медиа

Инструменты для Создателей Контента

Google также представил новые мощные инструменты на базе ИИ для создания контента, открывающие новую эру творчества.

Генерация Видео и Аудио (V3, Imagine 4)

Представлена новая передовая модель V3, которая доступна уже сейчас. Она предлагает улучшенное визуальное качество и более глубокое понимание физики. Главное новшество V3 — нативная генерация аудио. Модель может создавать звуковые эффекты, фоновые звуки и даже диалоги для персонажей. Это позволяет создавать невероятно реалистичные видеоролики с интегрированным звуком. Также анонсированы Imagine 4 и V3, позволяющие создавать потрясающие изображения и видео со звуком.

Генерация Музыки (Lyria 2)

Недавно выпущена модель Lyria 2, способная генерировать музыку высокого качества и профессионального уровня. Созданная музыка мелодична, включает вокал (как соло, так и хор) и звучит очень выразительно и насыщенно. Lyria 2 уже доступна для предприятий, создателей контента на YouTube и музыкантов.

Flow: Инструмент для Видеопроизводства

В сотрудничестве с творческим сообществом Google разработал новый AI-инструмент для видеопроизводства под названием Flow. Этот инструмент объединяет лучшее из моделей VIO, Imagine и Gemini и призван помочь создателям войти в состояние "творческого потока", где время словно замедляется. Flow запускается уже сегодня.

Безопасность: Synth ID и Обнаружение

Два года назад Google представил Synth ID — технологию, встраивающую невидимые водяные знаки в сгенерированный медиаконтент. На сегодняшний день уже более 10 миллиардов единиц контента получили такие водяные знаки. Google расширяет партнерства, чтобы обеспечить нанесение водяных знаков на еще большее количество контента и дать возможность большему числу организаций их обнаруживать. Улучшена и сама технология обнаружения: новый детектор Synth ID может определить наличие водяного знака в изображениях, аудиозаписях, текстах или видео, даже если он присутствует только в части контента. Этот детектор начинает внедряться для ранних тестировщиков уже сегодня.

Расширенная Реальность и Будущее

Android XR и Устройства Нового Поколения

Google уверен, что будущий AI-ассистент будет доступен через новые форм-факторы. Именно для этого создается Android XR — первая платформа Android, разработанная в эпоху Gemini. Она поддерживает широкий спектр устройств для различных сценариев использования, от гарнитур до очков. В Google считают, что не существует универсального решения для XR, и в течение дня будут использоваться разные устройства. Для просмотра фильмов, игр или работы больше подойдут иммерсивные гарнитуры, а для использования на ходу — легкие очки, способные предоставлять актуальную информацию без необходимости доставать телефон. Android XR был разработан совместно с Samsung и оптимизирован для процессоров Snapdragon от Qualcomm.

Устройства: Гарнитуры и Очки

Первым устройством на базе Android XR стала гарнитура Samsung Project Muhan, которая будет доступна для покупки позднее в этом году. Google также представил прототипы легких очков с Android XR, рассчитанные на ношение в течение всего дня. Работа над очками ведется уже более 10 лет. Сотрудничество с Samsung расширяется, распространяя Android XR на устройства в виде очков. Прототипы уже используются доверенными тестировщиками, и разработчики смогут начать работать с платформой для очков позднее в этом году. Первыми партнерами по производству очков с Android XR станут Gentle Monster и Warby Parker.

ИИ на Службе Общества

Возможности искусственного интеллекта позволяют решать важные социальные и гуманитарные задачи.

Firesat: Обнаружение Пожаров

В ответ на проблему быстро распространяющихся лесных пожаров, Google в партнерстве с другими организациями создает проект Firesat. Это созвездие спутников, использующих мультиспектральные изображения и ИИ для предоставления информации о пожарах почти в реальном времени. Благодаря высокому разрешению, система способна обнаруживать возгорания размером всего около 25 квадратных метров. Первый спутник уже находится на орбите. Когда система будет полностью развернута, изображения будут обновляться каждые 20 минут, тогда как сейчас это происходит каждые 12 часов. Скорость и точность в обнаружении пожаров могут сыграть решающую роль.

Использование Дронов при ЧС

Во время урагана Хелен, компания Wing в партнерстве с Walmart и Красным Крестом осуществляла доставку помощи с помощью дронов, работающих под управлением ИИ. Удалось доставить критически важные предметы, такие как еда и лекарства, в убежище, основываясь на информации о потребностях в реальном времени. Подобные решения планируется масштабировать для использования в других чрезвычайных ситуациях. Эти примеры демонстрируют, как ИИ уже сегодня помогает обществу.

Видение Будущего

Исследования, проводимые сегодня, станут реальностью уже через несколько лет, а не десятилетий. Среди перспективных направлений — создание помощников-роботов нового поколения, поиск методов лечения самых смертоносных заболеваний, развитие квантовых компьютеров с коррекцией ошибок и появление полностью автономных транспортных средств, способных безопасно доставить куда угодно. Возможность улучшать жизни людей с помощью технологий является мощным вдохновением. Пример поездки в беспилотном автомобиле Waymo, которая поразила пожилого отца, показывает, как технологии могут вдохновлять и двигать нас вперед.

Планы Подписки

Google AI Pro и Ultra

Для предоставления доступа к передовым AI-возможностям были обновлены планы подписки. Представлены два плана: Google AI Pro и совершенно новый Google AI Ultra.

Google AI Pro: Будет доступен по всему миру. Предлагает полный набор AI-продуктов с более высокими лимитами использования и специальными функциями по сравнению с бесплатной версией. Этот план включает Pro-версию приложения Gemini, ранее известную как Gemini Advanced.
Google AI Ultra: Предназначен для лидеров и первопроходцев, желающих получить самые передовые AI-технологии от Google. Этот план включает самые высокие лимиты использования и самый ранний доступ к новым функциям и продуктам. Изначально доступен в США и будет постепенно распространяться по всему миру.

Заключение

Google I/O 2025 подчеркнул центральную роль искусственного интеллекта в стратегии развития Google. Были продемонстрированы значительные успехи в области моделей (Gemini 2.5 Pro/Flash, V3), инфраструктуры (TPU Ironwood) и интеграции ИИ в ключевые продукты, такие как Поиск (AI Mode, Search Live, шопинг), Gmail (персонализированные ответы) и приложение Gemini (Agent Mode, Gemini Live). Анонсы Google Beam и Android XR показали видение Google в области коммуникаций и расширенной реальности. Особое внимание уделяется инструментам для творчества (Flow, V3, Lyria 2) и безопасности (Synth ID). Планы подписки Google AI Pro и Ultra призваны предоставить пользователям и разработчикам более широкий доступ к этим технологиям. И наконец, были представлены вдохновляющие примеры использования ИИ для решения глобальных проблем (Firesat, помощь при ЧС). Это замечательный момент в истории, когда ИИ открывает путь к удивительному новому будущему, и роль разработчиков в распространении этих преимуществ неоценима.