В сериале «Захват» есть технология под названием «Коррекция», которая умеет подменять видео прямо во время телевизионного эфира. Политик якобы произносит фразу, которой никогда не говорил.
Новостные каналы транслируют это как настоящую запись.
И зрители не замечают подмены. Звучит как фантастика. Но если посмотреть на современные технологии искусственного интеллекта, становится ясно: большая часть этой системы уже существует. Разберу, простым языком, из каких технологий могла бы состоять такая система. Основа большинства видеодипфейков — технология face swap. Сначала алгоритмы компьютерного зрения выполняют face detection — находят лицо человека в кадре. Затем происходит face alignment: система определяет ключевые точки лица (глаза, нос, рот) и выравнивает изображение. После этого нейросеть извлекает identity embedding — числовой вектор, который описывает уникальные черты лица человека. Дальше генеративная модель создаёт новое изображение лица, сохраняя мимику и движения головы исходно