Telegram: @just_data_science
Даже люди, не очень следящие за новостями в мире DataScience и MachineLearning, наверняка видели (или слышали про) картинки, сгенерированные какими-то нейросетями. И если раньше эти технологии были уделом всяких гиков, то "Космополитен" постарался, чтобы теперь любая блондинка могла, не стыдясь, поднять эту тему во время болтовни на ноготочках.
Как работают нейросетки-художники?
Если совсем вкратце, то как любая нейронка. Обязательно почитайте вот эту статью 2017 года с нашего канала - принципы работы нейронок абсолютно не изменились с момента ее публикации. Эти новомодные нейрохудожники работают всё так же: подаешь им на вход информацию (фразу и/или картинку), а они пропускают эту информацию через свой "черный ящик" и выдают результат, нередко - неожиданный. Вот и всё!
А почему же тогда раньше не было таких инструментов? Потому что за последние годы изменилась мощность компьютеров и алгоритмов машинного обучения. У больших корпораций давно уже появилось хобби - строить как можно более мощные кластеры, с максимально возможным числом компьютеров. И использовать их для создания как можно более качественных моделей машинного обучения, в том числе - тех самых нейронок. Для тренировки используют как можно более большие наборы данных (для нейрохудожников - это массивы из картинок и подробных описаний каждой картинки). Чем мощнее компьютеры, тем больше параметров можно задавать нейронке, и тем более "гениальнее" результаты её работы.
И по мере дальнейшей гонки корпораций - мы будем получать все более совершенные нейросетки, которые будут генерировать еще более качественные картинки, тексты, музыку, видео. Не говоря уж о способности повышать качество имеющихся у вас старых фоточек/видосиков - такие инструменты есть уже сейчас.
А всё же, можно чуть подробнее?
Если рассказывать все еще очень кратко, то Dall-E работает следующим образом. Разберем на примере запроса "Барби рыдает в своем бассейне из-за плохого маникюра".
- Сначала текстовый запрос подается в раскодировщик текста, который разбирает его на логические блоки. Получится что-то вроде набора "Барби", "рыдает", "бассейн", "плохой маникюр".
- Далее нейронка копается в своей базе знаний, на которой она обучалась. Для каждого логического блока находятся подходящие изображения. Вот так выглядят Барби. Кстати, она женщина, и вот так выглядят рыдающие женщины. Вот так - бассейн, а вот так - плохой маникюр.
- Найденные в знаниях нейронки изображения раскладываются на некоторое цифровое представление (или вектор), и на их основе генерируются новые подобные изображения. Вот набор картинок со свеженарисованной Барби, похожий на те, на которых обучалась нейронка. Вот плачущие женщины. Вот бассейн, вот маникюр. И ни одна из картинок не является настоящей, они только похожи на настоящие.
- Все сгенерированные изображения собираются и переосмысливаются в единое целое, и получается куча результирующих картинок. Из них отбираются 4 наиболее "интересных" (с точки зрения нейронки) и выдаются.
Вот что, например, можно получить (на картинке справа и правда маникюр слегка плох):
Или вот, немного другой вариант запроса, да на английском:
Ну а если же вам и этой информации мало, значит, вы уже не совсем блондинка, тогда читаем официальный препринт Dall-E, или хотя бы его пересказ, например тут.
Я директор. Могу уволить своего дизайнера (художника, иллюстратора) ?
Не совсем. ИИ все еще не очень хорошо живет без кожаных мешков. Как и частенько, все эти новомодные технологии - способ облегчить работу человека, дать ему больше возможностей, но никак не замена.
Почему так?
Во-первых, глядя на все эти красивые картинки, гуляющие по интренетам, вы можете подумать, что нейросети генерируют сплошь крутые изображения. Но это не так. Все друг другу показывают редкие жемчужины, а на самом деле большинство сгенерированных картинок - угадайте что?
Карен Ченг, автор той самой обложки Cosmopolitan, рассказала, что на самом деле потратила сотню часов, а не 20 секунд, прежде чем смогла сгенерировать картинку, которая бы ей понравилась достаточно, чтобы разместить на обложку.
Во-вторых, даже если результаты выглядят толково, бывает, что нейросети теряют контекст и пропускают часть описания, даже когда человек легко бы что-то придумал. Особенно это заметно при использовании языка отличного от английского, на котором в основном обучено большинство нейронок.
В-третьих, в продолжение предыдущих пунктов, нейросети (пока что) не умеют в игры слов, сарказм, юмор. В общем, все, требующее понимание контекста и неявных ассоциаций.
В-четвертых, модели обучены и допускаются к использованию в рамках строго оговоренных ограничений. Насилие, обнажёнка, запрещенные вещества - все это запрещено генерировать. Принудительно внесена коррекция на репрезентативность, чтобы генерировать, условно, не только фото белых мужчин, и иногда это не в тему. А чтобы никого не подставить, пририсовав к чьей-то фотографии что-нибудь эдакое, запрещено использовать фотографии лиц людей. Скучно? Скучно, зато с такой нейронкой можно играть даже детям!
В-пятых, на данный момент модель пока все еще не очень хорошо понимает понятие пропорций, ракурсов. Сложности вызывают какие-то простые общеизвестные физические законы. Это легко объяснимо: никто нейросетки этому не обучал, их обучали только сопоставлять текст с картинкой.
В-шестых, в дополнение ко всему вышеприведенному, есть еще куча неявных багов. Простой пример, не единственный, но отличная иллюстрация, - это проблема детализации лиц. Dall-E отлично генерирует изображение с одним лицом, но если лиц несколько, получается какой-то кринж.
Конечно, что-то будет исправляться в новых версиях модели, но например, искусственно заложенные ограничения - нет. Оставьте своего сотрудника в покое! А лучше дайте ему совет. А какой, узнаете в следующей части.
Я дизайнер (художник, иллюстратор). Значит, директор меня точно не уволит? Или, всё же?..
Все та же Карен Ченг призналсь, что сначала боялась новой технологии и что она заменит людей, но затем поняла, что Dall-E - всего лишь удобный инструмент в руках человека, но никак не замена.
И ещё, снова про Карен. Да, история этой обложки для Cosmo - наилучшая иллюстрация всего происходящего. Девушка поняла, что для наилучшего результата нужно правильно составлять запрос, экспериментировать с ним. Все это напоминает эру развития поисковиков Google и Яндекс, где точность найденной информации можно было повысить, используя особым образом составленные поисковые запросы (и сейчас можно).
И вот это - ваш шанс! Уже появляются полузакрытые гайды с описаниями, как правильно составлять запросы, какие параметры учитывает нейронка, как лучше добиться желаемого. А по мере открытия доступа к этим нейронкам, востребованными станут дизайнеры, умеющие работать с языком запросов для генерации изображений. Наверняка, это будет таким же стандартным требованием, как сейчас знание Photoshop.
А ещё те, кто раньше освоит эти языки, смогут продавать свои знания и обучать других. Всякие марафоны, онлайн-курсы, платные закрытые клубы... Что, понравилась идея? Реализуй, ниша свободна! И не забудь заносить автору 10% от продаж ;)
Хочу попробовать!
Две самые мощные нейронки для генерации картинок пока недоступны "с улицы":
Dall-E от компании OpenAI, по факту проект спонсирован (и неявно принадлежит) Microsoft. Регистрация происходит по принципу подачи заявки в лист ожидания. Время от времени кого-то из этого листа впускают, но не очень понятно, по какой системе. У автора есть подозрение, что смотрят домен почтового адреса, отдавая приоритет заявкам с корпоративных емейлов, но это неточно.
Imagen - проект Google, ссылку не даю, ибо они аб-со-лют-но зажали доступ для публики. Насколько я знаю, попасть в проект пока ну вообще никак. Хотя, можно можно, конечно, устроиться в Гугл, но вас там однозначно заставят работать, а не котиков рисовать.
Но есть и еще разные сервисы, у которых результаты не такие шикарные, потому что используются модели попроще (меньше параметров у нейросеток, меньше набор данных для обучения). Зато их может попробовать любой желающий. Результаты обычно довольно абстрактные, но бывает и что-то интересное, если много пробовать. Вот несколько наиболее известных:
Dall-E mini - попытка сделать проект, похожий на оригинальный Dall-E, но при этом публичный. Многие даже путают этот проект с оригинальным Dall-E, но это абсолютно разные алгоритмы, несравнимые.
Midjourney - проект от сервиса Discord (чатики для геймеров, и не только).
ruDall-E - нейронка от команды Сбербанка. Есть версия поновее (через приложение "Салют"). И версия постарее - доступна онлайн, а можно вообще воспользоваться их официальным телеграм-ботом.
На этом, пока что, всё. В награду за то, что дочитали до конца, еще один набор картинок от Dall-E: