44 подписчика

Gemini Omni — новое семейство ИИ-моделей от Google

22 мая22 мая

2 мин

✨🤖✨ Gemini Omni — это новое семейство мультимодальных «world models» от Google DeepMind, анонсированное 19 мая 2026 года на Google I/O. Главный акцент — «create anything from any input» (создавай что угодно из чего угодно), начиная с видео. Модель сочетает способность Gemini к рассуждению с генерацией медиа, понимает физику реального мира, сохраняет постоянство персонажей, освещение и движение. Первая модель в новой линейке — Gemini Omni Flash. 🔹 Любые входы: текст + изображение + видео + аудио в любом сочетании. 🔹 Генерация и натуральное редактирование видео разговором (без переписывания промпта с нуля): «сделай фон ночным», «измени стиль на киберпанк», «добавь объект», «поменяй угол камеры» и т.д. 🔹 Хорошее понимание физики, последовательность и сторителлинг. 🔹 Короткие клипы (сейчас около 10 секунд, планируют удлинять). 🔹 Высокое качество видео с аудио. Это не просто text-to-video (как Veo), а более универсальный инструмент. Можно загружать своё видео и итеративно его править,

Оглавление

✨ Ключевые возможности Gemini Omni Flash
❌ Ограничения
🌍 Доступ

✨🤖✨ Gemini Omni — это новое семейство мультимодальных «world models» от Google DeepMind, анонсированное 19 мая 2026 года на Google I/O.

Главный акцент — «create anything from any input» (создавай что угодно из чего угодно), начиная с видео. Модель сочетает способность Gemini к рассуждению с генерацией медиа, понимает физику реального мира, сохраняет постоянство персонажей, освещение и движение. Первая модель в новой линейке — Gemini Omni Flash.

✨ Ключевые возможности Gemini Omni Flash

🔹 Любые входы: текст + изображение + видео + аудио в любом сочетании.

🔹 Генерация и натуральное редактирование видео разговором (без переписывания промпта с нуля): «сделай фон ночным», «измени стиль на киберпанк», «добавь объект», «поменяй угол камеры» и т.д.

🔹 Хорошее понимание физики, последовательность и сторителлинг.

🔹 Короткие клипы (сейчас около 10 секунд, планируют удлинять).

🔹 Высокое качество видео с аудио.

Это не просто text-to-video (как Veo), а более универсальный инструмент. Можно загружать своё видео и итеративно его править, как «видео-Photoshop» с разговорным интерфейсом.

❌ Ограничения

Иногда проблемы с очень сложным движением, идеальной последовательностью при многих правках и рендерингом текста. Есть водяные знаки SynthID для обозначения ИИ-контента и стандартные фильтры безопасности.

🌍 Доступ

Для подписчиков Google AI Plus / Pro / Ultra.

Доступна в Gemini app, Google Flow, YouTube Shorts и скоро в YouTube Create частично бесплатно для пользователей.

API для разработчиков обещали позже.

🧐 Короче...

Google прямо позиционирует Omni как целое семейство («new family of models», «first model in the Omni family»), которое в будущем должно уметь «создавать что угодно из чего угодно», то есть не только видео, а любые типы вывода.

Полноценная, более мощная версия Gemini Omni (без «Flash») пока не выпущена, но она упоминалась как будущее направление семейства. На старте Omni фокусируется именно на видео (генерация + разговорное редактирование), с планами расширения на другие модальности вывода позже. Это типичная стратегия Google: сначала выкатывают быструю, лёгкую версию (Flash), а потом добавляют более тяжёлые варианты.

Кто не хочет заморачиваться с оплатой подписки на Google — ждите API, чтобы попробовать модель через российские агрегаторы. Думаю, API можно ожидать в ближайшие дни ))

💙💙💙💙💙💙💙💙💙💙💙💙💙

Как всегда, благодарю за внимание 🤗

Подробнее по модели можно почитать в официальном блоге Google: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

Видеопрезентацию можно глянуть тут: https://vk.com/wall-238968864_1

Чем локалка лучше облачного ИИ? Преимущества локальных моделей

ПрилоЖенечка14 мая

Google Chrome втихаря ставит на ваш ПК модель ИИ весом в 4 ГБ. Как удалить модель и предотвратить её скачивание

ПрилоЖенечка7 мая

ИИ Claude Mythos Preview (Anthropic) вырвался на «свободу»

ПрилоЖенечка9 апреля