Найти в Дзене
Новое электричество

GANs N’ Roses

Лицо девушки, смоделированное ИИ. Photo by Generated Photos
Лицо девушки, смоделированное ИИ. Photo by Generated Photos

В нашей постоянной рубрике #funky ai коснемся пока что экспериментального применения AI, которое имеет потенциал перевернуть наше представление об искусстве, кино и визуальном восприятии объектов в целом.

Речь о генеративно-состязательных сетях (GANs), которые сегодня в основном применяются для генерации синтетических искусственных изображений (думаю, многие знакомы с концепцией deepfake – это прямое следствие использования GAN).

Суть проста – в основе сети лежат два AI: генератор, который создаёт фейковые изображения, и дискриминатор, который сравнивает сгенерированные изображения с объектами из реального мира. Генератор все время совершенствует выдачу, пытаясь раз за разом обмануть дискриминатора (который, к слову, также совершенствуется), и через миллионы и миллионы итераций учится выдавать невероятно близкие к реальности картинки.

Для начала короткий тест. Не читая дальше, определите, какие из изображений ниже «нарисованы» AI?

Источник — https://arxiv.org/abs/1809.11096
Источник — https://arxiv.org/abs/1809.11096

Правильный ответ – все они синтезированы сетью GAN.

Кстати, обратите внимание, что нижнее правое изображение является классическим примером сбоя AI – робот решил совместить собаку и теннисный мяч. Получилось довольно мило :)

Многие стартапы и исследователи сейчас пытаются нащупать наиболее эффективные способы применения данных сетей, ниже приведем несколько примеров.

Так, ученые из Университета Ланкастера (Великобритания) создали робота, успешно проходящего проверку сложной CAPTCHA за сотые доли секунды. На картинке ниже представлен процесс (сверху вниз) выделения и удаления мешающих элементов до тех пор, пока AI не сможет легко считать буквы:

Источник — https://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf
Источник — https://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf

Ученые университета Карнеги-Меллон (США) использовали GAN, чтобы трансформировать образ ведущего Джона Оливера в другого известного ведущего Стивена Колберта, превосходно ретранслируя любые выражения лица оригинала:

Источник — http://www.cs.cmu.edu/~aayushb/Recycle-GAN/
Источник — http://www.cs.cmu.edu/~aayushb/Recycle-GAN/

Исследователи Варшавского Технологического Университета (Польша) использовали GANs, чтобы преобразовать видео из кинофильмов в серию анимированных комиксов:

Источник — https://comixify.ai/
Источник — https://comixify.ai/

Более того, на аукционе Christie’s была продана первая в истории картина, полностью сгенерированная с помощью GAN. Вдумайтесь – покупатель заплатил $432 500 за это творение:

Источник — https://www.christies.com/features/A-collaboration-between-two-artists-one-human-one-a-machine-9332-1.aspx
Источник — https://www.christies.com/features/A-collaboration-between-two-artists-one-human-one-a-machine-9332-1.aspx

Взгляните на эти добрые лица. Ни одно из них не принадлежит реальному человеку, их создали с нуля GAN сети известного ИТ-гиганта Nvidia:

Источник — https://arxiv.org/abs/1812.04948
Источник — https://arxiv.org/abs/1812.04948

Несмотря на точность исполнения и огромный потенциал, у нейросетей типа GAN есть проблемы. Первая заключается в том, что данный AI пока плохо различает физиологические характеристики конкретных особей. Он может понять то, что у паука «много» ног, но не всегда осознавать, что их должно быть ровно 8, не больше и не меньше:

Источник — https://twitter.com/ajmooch/status/1046575098000478208
Источник — https://twitter.com/ajmooch/status/1046575098000478208

Вторая проблема кроется в недостатке вычислительной мощности. Один из пионеров технологии GAN, исследователь Google Эндрю Брок потратил столько же электроэнергии на создание одного 512-пиксельного изображения, сколько одно американское домохозяйство тратит за полгода.

С увеличением эффективности исследований и ростом вычислительных мощностей, продукты, создаваемые сетями GAN, могут становиться причиной крупных локальных и глобальных конфликтов, учитывая, насколько легко они способны создать фото или видео, компрометирующее известных людей и политиков. В ответ на это такие крупные новостные издания, как Wall Street Journal, уже нанимают в штат аналитиков, способных создать алгоритмы по распознаванию фейковых медиа.

В конечном счете, последствия от использования подобных технологий будут зависеть от глобальных решений насчет регулирования AI. Будем надеяться, что момент не упущен и точка невозврата пока не пройдена.

#funky ai