Читая книги, мы все так или иначе представляем определенную картину, основанную на прочитанном тексте, будь то детская сказка или психологический триллер. Порой люди могут не прочувствовать эмоциональную атмосферу произведения или не проникнуться симпатиями или антипатиями к главным героям из-за того, что не сумели составить для себя тот или иной образ. В таких случаях на помощь приходят иллюстрации. Они собирают все ключевые компоненты повествования — от элементов одежды главного героя до мельчайших деталей заднего плана — и соединяют все воедино в одно изображение, что добавляет самой истории красок.
В наши дни можно встретить множество замечательных иллюстраций к художественным произведениям, но, к сожалению, работы художника могут не совпасть с ожиданиями читателя или издательство попросту не посчитает нужным или не захочет нанимать художников. Эти факторы могут лишить нас красочной картинки в детской книжке или сложной карты фэнтезийных миров. Дабы решить данную проблему, я решила провести небольшое исследование. Изучив множество различных способов, решила прибегнуть к нестандартному, совершенно новому и современному методу — к искусственному интеллекту, а именно к нейросетям. Это довольно практичное, быстрое и творческое решение данной проблемы.
Что такое нейросеть?
Нейросеть — разновидность машинного обучения, при котором программа работает по принципу человеческого мозга. Разница между мозгом человека и компьютерной нейросетью в том, что нейроны в мозге могут самостоятельно образовывать устойчивые связи, когда человек учится чему-то новому. А нейроны в компьютерной сети не умеют самостоятельно обучаться и формировать связи. Они умеют только получать, обрабатывать и выдавать информацию по команде. Самое большое заблуждение состоит в том, что нейросети могут обучаться самостоятельно. Все современные нейросети человек совершенствует так же, как и алгоритм их работы.
На сегодняшний день нейросети используются в следующих областях — прогнозирование, принятие решений, распознавание образов, оптимизация, анализ данных. В общих чертах нейронные сети занимаются следующим:
· распознают и классифицируют объекты на изображениях;
· обеспечивают голосовое взаимодействие с интерфейсами;
· мониторят качество обслуживания в call-центрах;
· выявляют неполадки, аномалии в работе систем, кибер-угрозы;
· анализируют видео;
· управляют материальными потоками и расположением физических объектов;
· управляют производственными процессами;
· осуществляют мгновенный перевод;
· консультируют вместо операторов.
Для своих целей я использовала особую разновидность нейросетей, генерирующую изображения по описанию. Если суметь составить подробное описание простым языком, понятным для искусственного интеллекта, то специально обученные алгоритмы выдадут нам довольно неплохой результат с изображением всего, что только может себе представить человеческая фантазия.
На сегодняшний день в выбранной мною области не распространено использование искусственного интеллекта в качестве рабочей силы, эту работу выполняют профессиональные художники-иллюстраторы. Но, все же, есть примеры издательств, задействовавших новейшие технологии в своем производстве. Издательство «Эдитус» уже сейчас генерирует для своих произведений уникальные и красивые изображения, эти иллюстрации во многом не уступают произведениям художников. Книги, выпущенные этим издательством, пользуются спросом, они привлекают внимание читателей в книжных магазинах.
Несмотря на это, на данный момент нейросети все же не могут заменить настоящих художников, ведь для работы нейросетей необходим исходный материал, за счет которого они обучаются. То есть на основе уже созданных работ они создают нечто похожее. Подчеркну — похожее, а не новое. Они просто собирают работы, подходящие по некоторым ключевым словам, которые совпадают с вашим запросом. В результате могут выявиться такие казусы, как подпись автора одной из работ, на основе которой создана генерация.
Это вытекает в одно из негативных последствий внедрения искусственного интеллекта в выбранную мною область, а именно в этический вопрос – вопрос авторских прав. Уже сейчас множество художников выступают против ИИ, опасаясь, что тот вытеснит их с рынка. Некоторые из них подали иск в суд о нарушении авторских прав. Они утверждают, что создатели обучили свои ИИ-системы на массиве в 5 млрд изображений, доступных в интернете, но забыли спросить на это разрешения у их авторов.
Это не отменяет положительных сторон нейросети. Многие считают, что нейросеть положительно повлияет на профессию дизайнера. Например, будет выполнять мелкие задачи: удалять объекты, дорисовывать фоны, рисовать пейзажи, подбирать цветовую палитру и т.д.
На данный момент в области генерации изображений по текстовому описанию существует три основные нейросети: Midjourney, Stable Diffusion, DALL·E 2. Все они получили широкое распространение в 2021-2022 годах, и с каждым месяцем алгоритмы всех вышеперечисленных нейронных сетей существенно развиваются.
Наиболее доступной и простой в использовании из них является Midjourney, которая и была задействована в моей работе для генерации изображений сцен из книг. Midjourney является своего рода технологическим прорывом в области искусственного интеллекта. Ее создал ученый Дэвид Хольц, который работал в исследовательском центре NASA и институте Макса Планка.
Принцип работы нейросетей на примере Midjourney
Работу Midjourney обеспечивают два технологических прорыва в области искусственного интеллекта, произошедших относительно недавно: умение нейросетей понимать человеческую речь и создавать образы. Чтобы преобразовать два этих умения в стройную систему, которая по запросу выдает проекцию произведения искусства, нейронную сеть обучают выстраивать соответствие между текстовыми описаниями и визуальными образами на сотнях миллионов примеров. Результаты такого обучения позволяют решать различные задачи — генерацию картинок по текстовому описанию, генерацию текстовых описаний по картинкам, дорисовку частей изображения, и так далее. Midjourney — это диффузионная нейронная сеть и состоит как бы из двух нейросетей: первая отвечает за обработку и понимание текста, вторая — за генерацию изображения.
Для того чтобы сгенерировать изображение, необходимо написать и отправить текстовый запрос боту на сервере Midjourney в «Дискорде». Описание картинки для нейросети лучше формулировать на английском языке. Другие языки Midjourney понимает гораздо хуже.
Когда запрос сформулирован, необходимо нажать кнопку «Отправить». Бот начнет генерировать изображение. Вы буквально в прямом эфире увидите, как смутные очертания превращаются в четыре картинки. Обычно генерация занимает не дольше минуты, но все зависит от нагрузки на сервер «Дискорда» и деталей конкретного запроса.
Четыре получившиеся картинки — не итоговый результат. Под коллажем появятся кнопки «U1, U2, U3, U4» и «V1, V2, V3, V4». Первый параметр — улучшение качества. Выберите наиболее удачную картинку из четырех, и нейросеть улучшит ее разрешение, а заодно добавит деталей. Второй параметр позволяет создать еще четыре вариации конкретной картинки из коллажа — на случай, если вам нравится результат, но хочется посмотреть, что еще сделает нейросеть в том же духе.
В пользу нейросетей часто приводят такой довод, что здесь достаточно подобрать правильный запрос и нажать кнопку «Сделать шедевр». Это является правдой лишь отчасти: технически все верно, вот только на подбор идеального запроса могут уйти часы.
Нужно помнить, что мы разговариваем с нейросетью. Это должно отражаться в запросе. Не пишите «Любимое место в Москве в 2100 году», а укажите конкретнее, например «Красная площадь в Москве в 2100 году». Если можно уточнить формулировку и добавить описательности — сделайте это. Разработчики приводят в пример запрос «Обезьяны занимаются бизнесом» — для нейросети лучше написать: «Обезьяны сидят в офисе в деловых костюмах».
Также можно задавать стилистику. Midjourney обучена на огромном количестве художественных стилей, работах конкретных людей, различных эстетиках и временных эпохах. Многое зависит от фантазии пользователей. Не нужно бояться добавлять детали: цвета, освещение, материалы. Все это добавит красок конечному результату.
Выбор произведений
Прежде чем приступить к непосредственному общению с нейросетью, я выбрала десятку произведений русских и зарубежных авторов. В мой список вошли:
1. «Евгений Онегин» Александра Пушкина
2. «Анна Каренина» Льва Толстого
3. «Герой нашего времени» Михаила Лермонтова
4. «Мертвые души» Николая Гоголя
5. «Война и мир» Льва Толстого
6. «Маленький принц» Антуана де Сент-Экзюпери
7. «Алиса в стране чудес» Льюиса Кэрролла
8. «Ромео и Джульетта» Уильяма Шекспира
9. «Питер Пен» Джеймса Мэтью Барри
10. «Гарри Поттер и философский камень» Джоан Роулинг
Визуализация сцен из литературных произведений
В результате продолжительного «диалога» с искусственным интеллектом мною были получены следующие иллюстрации.
Эволюция нейросетей
Нейросети активно развиваются. Если еще в начале 2022 года при рассмотрении изображений, сгенерированных на основе текста, едва можно было разобрать, что на них продемонстрировано, то сейчас это, хоть и не всегда, довольно качественные иллюстрации со множеством деталей.
Для большей наглядности я бы хотела сравнить изображения от нейросети Midjourney версии 4 (которые были продемонстрированы выше) с изображениями этой же нейросети, но 1 версии. Ниже приведены примеры иллюстраций, сгенерированных на основе точно таких же текстовых запросов, что и выше.
Таким образом, мы можем прийти к выводу, что несмотря на все имеющиеся на данный момент проблемы (такие, как рисование пальцев или лиц на крупных планах), современные нейросети могут служить крайне полезным инструментом в руках как обычных людей, так и художников.
По результатам представленной работы можно также сказать, что иллюстрации произведений зарубежной литературы зачастую более подробны и точны, чем отечественной, что вполне понятно, учитывая принцип работы нейросети: чем больше исходного материала — тем выше результат.
На данный момент нейросети не могут быть полноценно внедрены в производство печатной литературы по причине возможных проблем, связанных с авторскими правами, но, когда ИИ научиться создавать нечто совершенно новое, то эти технологии смогут применяться повсеместно в данной сфере. Сейчас же они могут служить хорошей основой и вдохновением для художников, эти изображения могут легко заменить эскизы и наброски, тем самым экономя уйму времени людям. Также нейросети смогут выполнять мелкие задачки.
Искусственный интеллект, возможно, уберёт ремесленников, но оставит талантливых авторов, которые готовы развиваться. Более того, станет их помощником, упрощая их работу во многих сферах. А с развитием технологий их использование будет становиться удобнее, а результат все более впечатляющим.