579 тыс подписчиков

Google встроила в Gemini генератор музыки (видео)

19 февраля19 фев

1 мин

Компания Google DeepMind представила Lyria 3 — третье поколение своей генеративной музыкальной модели. С сегодняшнего дня она работает в бета-режиме прямо внутри Gemini App: никаких отдельных сервисов, никаких плагинов. Первые две версии Lyria требовали от пользователя готовых текстов, а модель лишь «одевала» их в музыку. Lyria 3 пишет слова сама, достаточно задать настроение, жанр или ситуацию, и система сгенерирует и мелодию. Вдобавок теперь можно управлять темпом, стилем и типом вокала — раньше такой гибкости не было. Треки стали сложнее, аранжировка глубже и реалистичнее по звуку. Схема работы простая: вводишь запрос или загружаешь фото и видео. Например, просишь создать весёлый афробит про совместные прогулки с мамой и её фирменное блюдо — Gemini анализирует запрос, подбирает стиль, генерирует текст и накладывает всё на музыку. Результат — 30-секундный клип с автоматически нарисованной обложкой от нейросети Nano Banana. Готовую композицию можно скачать или отправить другу по ссылк

Первые две версии Lyria требовали от пользователя готовых текстов, а модель лишь «одевала» их в музыку. Lyria 3 пишет слова сама, достаточно задать настроение, жанр или ситуацию, и система сгенерирует и мелодию. Вдобавок теперь можно управлять темпом, стилем и типом вокала — раньше такой гибкости не было. Треки стали сложнее, аранжировка глубже и реалистичнее по звуку.

Схема работы простая: вводишь запрос или загружаешь фото и видео. Например, просишь создать весёлый афробит про совместные прогулки с мамой и её фирменное блюдо — Gemini анализирует запрос, подбирает стиль, генерирует текст и накладывает всё на музыку. Результат — 30-секундный клип с автоматически нарисованной обложкой от нейросети Nano Banana. Готовую композицию можно скачать или отправить другу по ссылке прямо из интерфейса.

Если загрузить фотографию или видео, модель «читает» настроение кадра и сочиняет трек под него. Снимок собаки на горной тропе — и через несколько секунд звучит что-то между фолком и эмбиентом с соответствующими строчками. Намеренно скопировать чей-то стиль до деталей не получится. Если вписать в запрос имя конкретного артиста, Gemini использует его как общий ориентир по настроению, но не воспроизводит готовый звук. Все сделанные треки маркируются невидимым водяным знаком SynthID: он не слышен на слух, но позволяет идентифицировать происхождение файла. Тот же Gemini умеет проверять загруженные аудиофайлы и отвечать, создан ли трек с помощью Google ИИ.

Функция открылась для всех пользователей Gemini старше 18 лет на десктопе. Мобильные версии подтянутся в течение нескольких дней. Поддерживаемые языки запросов: английский, немецкий, испанский, французский, хинди, японский, корейский и португальский. Подписчики тарифов Plus, Pro и Ultra получат повышенные лимиты на количество треков. Параллельно Lyria 3 появилась в инструменте Dream Track на YouTube, он помогает авторам Shorts добавлять ИИ-музыку к коротким роликам. До этого функция работала только в США, теперь она открылась глобально.

Совсем недавно рассказывали как реалистичность ИИ заставила напрячься весь Голливуд. Подробности в статье.

IT (информационные технологии)

5,67 млн интересуются