На прошлой неделе компания Nvidia выпустила новую версию Nvidia Broadcast(открывается в новой вкладке) - программы глубокого обучения и ИИ, которая может выполнять подавление шума, удаление/замену фона, кадрирование камеры, а теперь... зрительный контакт. Последняя функция в настоящее время находится в бета-версии и... вероятно, должна оставаться в бета-версии.
ИИ и глубокое обучение в последнее время часто появляются в новостях, и не зря. Такие вещи, как Dall-E, Midjourney и Stable Diffusion, создают искусство из текста, часто с довольно поразительными результатами. Конечно, в других случаях в итоге получаются искалеченные существа-мутанты с двумя с половиной головами и слишком большим количеством конечностей. Что касается текста, то ChatGPT создает разборчивый почерк, который, как многие опасаются, означает смерть для английских эссе и журналистики (и нет, это не он написал этот новостной пост).
Идея Eye Contact достаточно проста: Когда вы участвуете в веб-трансляции или совещании, вы часто смотрите в сторону камеры. На самом деле, есть реальный шанс, что вы всегда смотрите в сторону камеры - потому что она расположена в верхней части экрана, и то, на что вы хотите смотреть, находится на экране. Но что, если бы существовал способ выглядеть так, будто вы смотрите на камеру, не глядя на нее?
Что если бы вы могли обучить модель ИИ работе с лицами и научить ее исправлять изображения, где человек не смотрит прямо в объектив? Получите миллионы изображений с соответствующими метками, запустите их в сеть, и на выходе получится потрясающий инструмент, не так ли?
Реализовать ее не так просто: Nvidia говорит о своей функции Eye Contact уже больше года, а она только сейчас выходит в публичный (бета) релиз. Различия между огромным количеством лиц по всему миру делают эту проблему трудноразрешимой, и даже сейчас результаты... несовершенны (и это еще мягко сказано).
Во время тестирования я заметил одну вещь: часто прямая видеотрансляция колебалась между тем, как я смотрю на камеру, и тем, как я смотрю куда-то еще, хотя мой фокус оставался в одном и том же месте. Полагаю, это может быть намеренным, поскольку смотреть прямо в камеру на протяжении всего видеочата было бы немного жутковато - но если это так, то необходимо внести некоторые коррективы в синхронизацию.
Сложнее сказать, полезен ли такой эффект вообще. Если вы хотите выглядеть так, будто смотрите в камеру, вам, вероятно, следует научиться смотреть... в камеру. Решение проблемы человеческих ошибок с помощью искусственного интеллекта может привести к поощрению вредных привычек - что произойдет, если вы попадете на видео, в котором не исправлен зрительный контакт?
Независимо от этого, Nvidia Broadcast with Eye Contact уже доступна для тестирования владельцам RTX. Я тестировал ее на RTX 3090 Ti, но Nvidia указывает RTX 2060 в качестве начальной точки (и это должно включать мобильные графические процессоры RTX 3050, насколько я знаю). В перспективе, я подозреваю, что в какой-то момент Nvidia выпустит некоторые модели ИИ, которые будут сложнее и потребуют более быстрого оборудования, чем RTX 2060 - точно так же, как функция генерации кадров в DLSS 3 требует видеокарты серии RTX 40 - но пока что любой GPU RTX, выпущенный за последние четыре года, может работать с этой функцией.
Нравится ли вам эффект, не нравится, кажется ли он жутким или что-то другое? Сообщите нам об этом в комментариях, а также о других эффектах, которые вы бы предпочли увидеть. Лично я с нетерпением жду того времени, когда все мы сможем иметь виртуальные мультяшные аватары вроде Тоя Дженсена, говорящие вместо реальных людей, возможно, читающие статьи, написанные искусственным интеллектом, причем и видео, и статьи будут потребляться искусственным интеллектом.
Дальше все будет зависеть от ботов!