Добавить в корзинуПозвонить
Найти в Дзене
Social Mebia Systems

YouTube превратил смартфон в «интеллектуальную киностудию»: как AI научился в реальном времени менять ваше лицо

9 сентября 2025 года YouTube представил настоящий технологический прорыв — систему генеративных AI-эффектов, которые работают прямо в камере Shorts.
Теперь любой пользователь может мгновенно превращаться в зомби к Хэллоуину, мультяшного персонажа или обладателя сияющей «водной» кожи. И все это — на обычном смартфоне, без серверов и задержек. Как втиснуть десятки гигабайт в телефон? Проблема генеративных моделей известна: они слишком большие и тяжелые для мобильных устройств. Системы вроде StyleGAN или Imagen нормально работают только в облаке. YouTube решил задачу: Причем обучение не ограничилось базовыми примерами: инженеры тщательно прогоняли «ученика» через сложные тесты — с очками, полуобъемными перекрытиями лица, движением рук перед камерой, — пока модель не научилась работать устойчиво. PTI — гарантия того, что в кадре останетесь вы Одна из главных проблем генеративных эффектов — так называемая inversion problem: алгоритм часто меняет не только стиль, но и саму внешность человека

9 сентября 2025 года YouTube представил настоящий технологический прорыв — систему генеративных AI-эффектов, которые работают прямо в камере Shorts.
Теперь любой пользователь может мгновенно превращаться в зомби к Хэллоуину, мультяшного персонажа или обладателя сияющей «водной» кожи. И все это —
на обычном смартфоне, без серверов и задержек.

Как втиснуть десятки гигабайт в телефон?

Проблема генеративных моделей известна: они слишком большие и тяжелые для мобильных устройств. Системы вроде StyleGAN или Imagen нормально работают только в облаке.

YouTube решил задачу:

  • Огромная модель играет роль «учителя», генерируя примеры.
  • Маленькая версия — «ученик» — учится воспроизводить результаты.
  • Архитектура на базе UNet и MobileNet позволила добиться скорости 30 кадров/с на мобильных GPU.

Причем обучение не ограничилось базовыми примерами: инженеры тщательно прогоняли «ученика» через сложные тесты — с очками, полуобъемными перекрытиями лица, движением рук перед камерой, — пока модель не научилась работать устойчиво.

PTI — гарантия того, что в кадре останетесь вы

Одна из главных проблем генеративных эффектов — так называемая inversion problem: алгоритм часто меняет не только стиль, но и саму внешность человека.

Решение YouTube — Pivotal Tuning Inversion (PTI).

  • Сначала AI максимально точно восстанавливает черты лица пользователя: цвет кожи, очки, форму носа.
  • Затем поверх этих неизменных характеристик накладывается стиль — улыбка, фильтр зомби или мультяшная обработка.

Итог: лицо остается вашим, меняется лишь эстетика. Эффект скорее напоминает макияж, чем «перерисовку».

Как все работает внутри смартфона

После того как компактная модель была натренирована, разработчики встроили ее в MediaPipe — ML-фреймворк Google для обработки мультимодальных данных на устройствах.

Процесс выглядит так:

  1. Face Mesh обнаруживает лицо на видео.
  2. Система стабилизирует кадр и выравнивает лицо.
  3. «Ученик»-модель в реальном времени генерирует эффект (улыбка, стиль и пр.).
  4. Обработанное изображение возвращается в поток, формируя итоговое видео без рывков.

На Pixel 8 Pro вычисления занимают всего 6 мс/кадр, а на iPhone 13 — около 10 мс, что идеально для стабильных 30 FPS.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/