Генеративные состязательные сети привлекли большое внимание средств массовой информации из-за роста числа дипфейков. Эти алгоритмы находят уникальные применения в искусстве и помогают нам добиться гигантских успехов в понимании искусственного интеллекта.
«Все искусство есть не что иное, как подражание природе». — Сенека
В октябре 2018 года ожидалось, что картина под названием «Портрет Эдмонда Белами» будет продана на аукционе по цене от 7 000 до 10 000 долларов, но, к удивлению аукционного дома Christie’s, она была продана за колоссальную цену в 432 500 долларов.
Углы портрета незакончены, но самой уникальной частью картины и, возможно, причиной ее высокой цены является математическая формула, которую можно увидеть в правом нижнем углу, где обычно находится подпись художника.
Картина создана не человеком, а алгоритмом.
В частности, он был создан с помощью класса алгоритмов машинного обучения, известных как генеративно-состязательные сети (GAN), разработанных Яном Гудфеллоу, известным исследователем искусственного интеллекта (ИИ), который в настоящее время работает в Apple.
В последнее время GAN привлекли большое внимание средств массовой информации из-за роста популярности дипфейков — видеороликов, созданных путем наложения лиц знаменитостей и политиков на тела других людей, часто на лица имитаторов. Эти дипфейки, основанные на GAN, невероятно реалистичны и способны убедить зрителей в том, что на них изображены настоящие знаменитости. Неудивительно, что GAN нашли применение во всех видах редактирования визуального контента, от автоматического создания аниме-персонажей до изменения фотографий фотомоделей для демонстрации разных поз и увеличения разрешения размытых фотографий. Индустрия дизайна видеоигр находится на пороге революции благодаря этой технологии, которая используется для создания более реалистичной компьютерной графики и виртуальных сред. Некоторые ориентированные на потребителя приложения, такие как FaceApp, также используют GAN, показывая пользователям, как они будут выглядеть, если состарятся на определенное количество лет. Даже астрономы используют GAN для заполнения частей неба недостающими данными и создания реалистичных реализаций дальнего космоса для дальнейших исследований.
Но истинный потенциал GAN заключается в том, как алгоритмы могут продвинуть область ИИ от узких приложений к более общим. С тех пор, как Алан Тьюринг опубликовал свою знаменитую статью, в которой спрашивал, могут ли машины думать, наблюдается неуклонный прогресс в разработке машин, которые могут думать.2 В последние несколько десятилетий в исследованиях ИИ все чаще используются методы статистического моделирования, такие как машинное обучение, при котором системы учатся путем поиск закономерностей в данных и создание выводов с минимальным вмешательством человека. Один из таких методов моделирования, называемый нейронной сетью, в последние годы значительно продвинулся вперед, используя растущую вычислительную мощность и доступ к массивным наборам данных. GAN являются последними в линейке таких моделей и используют уникальный творческий подход с использованием нейронных сетей для обучения машин. Эта идея настолько новаторская, что Ян ЛеКун, один из современных пионеров в области искусственного интеллекта, назвал GAN «самой крутой идеей в машинном обучении за последние 20 лет».
Чтобы понять революционный потенциал GAN, нам нужно сначала взглянуть на концепции дискриминационного моделирования и генеративного моделирования. В области машинного обучения исследователи пытались разработать алгоритмы, которые могут обрабатывать большие объемы обучающих данных, чтобы изучать и понимать мир. Но до недавнего времени большая часть заслуживающего внимания прогресса в этой области была связана с идеей дискриминационного моделирования. Это относится к таким задачам, как определение того, есть ли на фотографии собака или данная картина была создана Ван Гогом. Здесь алгоритмы учатся на обучающих данных с пометкой каждого наблюдения. С математической точки зрения дискриминационное моделирование пытается оценить вероятность того, что наблюдение x принадлежит категории y. С момента запуска базы данных ImageNet в начале 2010-х годов, конкурса ImageNet Visual Recognition Challenge и разработки глубокой сверточной нейронной сети (CNN) такие задачи классификации изображений стали проще, и многие считают эту проблему решенной проблемой.
С другой стороны, генеративное моделирование заключается не только в том, чтобы определить, изображена ли на фотографии собака. Он учится на обучающем наборе данных изображений собак, чтобы выяснить правила их внешнего вида и создать или синтезировать новые изображения собак. Важно отметить, что эта модель должна быть вероятностной, а не детерминированной. Детерминированная модель всегда дает один и тот же результат при заданном наборе начальных условий или начальных параметров. Поэтому генеративная модель должна включать случайный элемент, чтобы новое синтезированное изображение каждый раз было разным. Предположим, что существует некоторое неизвестное вероятностное распределение, описывающее, почему одни изображения, скорее всего, будут найдены в наборе обучающих данных, а другие — нет. Генеративная модель должна быть очень похожа на это распределение и производить выборку из него для вывода группы пикселей, которые выглядят так, как будто они могли быть частью исходного набора обучающих данных.
В своей знаменательной статье 2015 года ученые-компьютерщики Леон Гэтис, Александр Экер и Матиас Бетге совершили прорыв в разделении представления контента и стиля. новые обработки фотографий в тех самых художественных стилях. Новый рендеринг показал то же содержание, что и фотография, но стиль напоминал произведение искусства. Например, объединив фотографию Неккарфронта (туристическая достопримечательность в Тюбингене, Германия) и картину Ван Гога «Звездная ночь» в качестве эталонного изображения стиля, алгоритм смог создать новую художественную версию фотографии с пост-эффектом. Импрессионистические завитушки, напоминающие картину.
Хотя документ 2015 года был новаторским, он опирался на одно изображение в качестве эталона стиля. Последующие исследования развили эту идею, обучая GAN учиться на предметной области изображений, таких как полные работы конкретного художника или произведения искусства определенного периода времени. Именно так парижский арт-коллектив Obvious создал картину «Портрет Эдмона Белами». Он обучил GAN на наборе данных из 15 000 портретов, написанных между 14 и 20 веками. Генератору в GAN было поручено синтезировать новые изображения на основе этого набора данных, в то время как дискриминатор пытался поймать изображения, которые не были созданы человеком.
В своем знаменитом тесте 1950 года Алан Тьюринг предположил, что можно сказать, что машина демонстрирует разумное поведение, если оценщик-человек не может отличить ее ответы от ответов человека в текстовом разговоре. С тех пор область ИИ резко выросла и породила ряд приложений, большинство из которых ограничены узкими задачами в определенных областях. Подумайте об интеллектуальных системах, таких как Google Translate, Siri, Alexa и обычном программном обеспечении для распознавания лиц. Они демонстрируют высокий уровень интеллекта для определенных функций и в некоторых случаях превосходят человеческие возможности. Но эти системы не очень полезны, когда они применяются к задачам, отличным от их специализации. Напротив, гипотетическая форма искусственного общего интеллекта могла бы расширить обучение на различные функции и могла бы решать более сложные проблемы, реагировать на незнакомую среду и принимать решения самостоятельно. Появление GAN добавило волнения в эту растущую область исследований. Это позволило методам машинного обучения выйти за рамки простого понимания и маркировки данных, которые им предоставляются. В настоящее время методы становятся все более совершенными для выяснения того, как данные были сгенерированы в первую очередь. Чтобы добиться истинного интеллекта, машины должны не только уметь определять, изображена ли на фотографии собака или кошка, но и понимать, что означает, что на фотографии изображена собака или кошка. Последние применения GAN в создании визуального контента, особенно в создании произведений искусства, кажется, предполагают, что мы движемся в правильном направлении.
Автор Теджеш Кинаривала. Теджеш Кинаривала является вице-президентом по управлению в WorldQuant, имеет степень бакалавра электротехники Индийского технологического института в Дели и степень магистра делового администрирования Индийского института менеджмента в Ахмадабаде.