Нейросети являются одной из самых востребованных технологий в наши дни, и генерация изображений не исключение. На протяжении многих лет разработчики искусственного интеллекта работали над созданием инструментов, которые могут не только генерировать изображения, но и обучать сами себя.
В общем, развитие и обучение нейросетей для генерации изображений – это долгий и сложный процесс, который требует большого количества вычислительных ресурсов и времени. Однако, благодаря развитию технологий, мы видим все больше и больше примеров генерации реалистичных изображений с помощью нейросетей. Никто точно не знает, насколько далеко мы можем продвинуться в этой области, но одно можно сказать точно – будущее обещает быть увлекательным.
Основной принцип, по которому обучаются нейронные сети, называется обратным распространением ошибки (backpropagation). Этот метод заключается в том, что сначала сеть получает на входе некоторые данные, и выполнение операций в нейронах порождает выходные значения. Затем результаты сравниваются с ожидаемыми (ожидаемые выходные значения известны из-за наличия обучающей выборки).
Сложно? Объясняем на котиках!
Возьмем маленького ребенка. Ему родители говорят, указывая на некий предмет: “Это кошка!” У него в голове отображается - пушистая, 4 лапы, острые ушки, хвост. Потом показывают льва. Ребенок говорит: “Это кошка!” Родители объясняют, что кошка маленькая, а это лев - он большой. В голове откладывается эта информация. Далее туда может записываться информация про тигра, пуму, гепарда. И так постепенно ребенок учится отличать похожие предметы.
Так же и нейросеть учится на основе не только уже имеющихся результатов в сети, но и на собственном опыте.
Есть множество нейросетей платных, бесплатных и ограниченно бесплатных. Все они на разных стадиях развития, с разными функциями и умениями.
Сегодня мы решили протестировать некоторые нейросети.
Для этого подобрали 2 ключевых запроса.
1. Иллюстрация для фантастической книжки.
рус. В пещеру темную и глубокую входит ребенок и его друзья, пробираются ползком. Они сталкиваются с драконом свирепым и смелым. Но с командной работой они не справились.
англ. Into a cave, so dark and deep, The child and friends do creep. They face a dragon, fierce and bold, But with teamwork, they are not controlled.
2. Тестирование одной из проблемных зон искусственного интеллекта - детализация рук, пальцев.
рус. рука старика с кольцом в форме короны на мизинце рядом с сумкой в темно-синем костюме.
англ. old man hand with crown shaped ring on his pinky finger next to dark blue suit bag
НейроТекстер
Нейросеть, способная генерировать текст, изображения, делать рерайт, сокращать текст. Не любит некоторые слова. Например, слово “ребенок” не прошло и выдавало ошибку, техподдержка сказала, что необходимо изменить формулировку на "мальчик".
Неплохо рисует детские картинки, учитывает большинство слов в запросе. Но даже на максимальных настройках не особо прорисовывает детали. С лицами и руками работать вообще не умеет.
Craiyon
Работает на алгоритме DALL-E Mini, который является бесплатным и доступным в режиме онлайн. Однако, по сравнению с другими нейросетями, Craiyon менее производительна при запросах на создание изображений людей или животных. Это объясняется тем, что данная нейросеть все еще находится в стадии обучения.
При обработке запроса она увидела только 1 слово - "дракон", остальное опустила. Драконы конечно достаточно разнообразные и необычные, хотя по качеству и скорости обработки запроса остаются вопросы. Руки на данный момент абсолютно не умеет рисовать, как будто они получили ужасные травмы.
ruDALL-E
Одна из крупнейших нейросетей в России, которую можно с уверенностью назвать настоящим прорывом в русскоязычной индустрии искусственного интеллекта. Она позволяет выбрать не только формат изображения, но стиль, в котором будет оно создано. Работает со 101 языком (по словам создателей).
Хорошо прорисовывает детали в фантастических картинках, интерьер и окружающие предметы. К сожалению, проблема с конечностями также присуща этой нейросети, как и большинству других.
StarryAI
сервис для создания высококачественных иллюстраций на базе нейросетей Argo и Altair. Неплохо генерирует изображения, описанные на английском. Конечности опять оставляют желать лучшего. Запросы на русском языке воспринимает не корректно и выдает абсолютно не соответствующее изображение русской речи.
Stable Diffusion
Быстрая и бесплатная нейросеть, распознающая в основном английский язык. На русском запросы крайне редко приводят к нужному результату. Неплохо ей удаются интерьеры, автомобили. Попадаются достаточно реальные картинки рук с правильным количеством и формой пальцев, хотя тоже не особо часто. Но при широких запросах сеть как будто забывает о таких мелочах как конечности и лица.
Lexica Aperture
Позволяет указывать не только текстовый запрос, но и слова-исключения. Нейросеть основана на уникальном алгоритме Lexica Aperture, который способен создавать красочные и оригинальные арт-иллюстрации
Картинки этой нейросети всегда светлые, яркие, но даже при уточнении запроса на “реальное фото” увы они получаются анимационными.
Старается прорисовывать конечности, структуру ткани, фоны, лицо, волосы. Но беда с количеством пальцев и рук одного человека, а также цветом кожи (одна рука белая, вторая смуглая), формой пальцев и ногтей (женские пальцы и яркий маникюр у брутального мужчины).
Midjourney
Пожалуй, самая известная и хорошо обученная нейросеть, дающая, самые точные иллюстрации по текстовому запросу. Понимает запросы в основном на английском. Главный минус - стала полностью платной с недавнего времени.
Она уже научилась считать пальцы в 90% случаев, детально рисовать кожу, волосы, ногти и текстуры. Выдает при первичном запросе 4 варианта, по которым можно запросить вариации.
В заключении можно отметить, что различные нейросети, рисующие изображения, имеют свои плюсы и минусы. Некоторые модели могут создавать более реалистичные изображения, но требуют значительных вычислительных ресурсов и времени для обучения. Другие модели могут быть быстрее и требовать меньше вычислительной мощности, но могут не обладать такой же точностью или качеством.
Тем не менее, все нейросети обучаются на большом количестве данных, что позволяет им создавать качественные изображения. Кроме того, некоторые модели могут использоваться для создания оригинальных и креативных иллюстраций, которые будут интересны как дизайнерам, так и обычным пользователям.