Сначала было слово...

19 апреля 202319 апр 2023

5 мин

Всем привет. Надеюсь, это будет начало большого будущего, но начинать нужно с малого. Так что начнём со слова. И слово это - нейросети. Что ж, думаю многие знают что это такое и с чем это едят, поэтому могут пропустить следующий абзац. А для остальных поясняю. Нейросети - это алгоритм, имитирующий поведение человеческого мозга для решения каких-либо задач. Нас же конкретно интересует глубокое машинное обучение. Это вид нейросетей, который использует большой объём данных (дата сет) для обучения задаче, которую перед ним поставили. Прямо как ребёнок учится различать круг от квадрата также и нейросети, построенные на глубоком машинном обучении, изучая сотни тысяч изображений учатся изображать объекты. В случае с нейросетью Kandinsky, которую я буду использовать сейчас и далее нейросеть учится сопоставлять текст с картинкой. Т.е. если вы напишете в запрос слово "коттедж", то нейросеть попытается изобразить именно коттедж, потому что её так научили на множестве изображений данной постройки

Всем привет. Надеюсь, это будет начало большого будущего, но начинать нужно с малого. Так что начнём со слова. И слово это - нейросети.

Что ж, думаю многие знают что это такое и с чем это едят, поэтому могут пропустить следующий абзац. А для остальных поясняю. Нейросети - это алгоритм, имитирующий поведение человеческого мозга для решения каких-либо задач. Нас же конкретно интересует глубокое машинное обучение. Это вид нейросетей, который использует большой объём данных (дата сет) для обучения задаче, которую перед ним поставили. Прямо как ребёнок учится различать круг от квадрата также и нейросети, построенные на глубоком машинном обучении, изучая сотни тысяч изображений учатся изображать объекты. В случае с нейросетью Kandinsky, которую я буду использовать сейчас и далее нейросеть учится сопоставлять текст с картинкой. Т.е. если вы напишете в запрос слово "коттедж", то нейросеть попытается изобразить именно коттедж, потому что её так научили на множестве изображений данной постройки.

Это если очень кратко и поверхностно. Собственно отсюда вытекает несколько проблем. Во-первых, нейросеть никогда не выдаст 100% результат, потому что как и человек может допускать ошибки в процессе обучения (например здесь странные окна и кривые доски). Во-вторых, описания должны быть чёткими, краткими и конкретными. Нейросеть учится на множестве изображений выделяя похожие объекты в множества - классы. Она не знает до конца имена персонажей из фильмов, игр, сериалов или книг, поэтому нейросеть, конечно попытается изобразить что-то похожее на него, но идеального сходства не ждите, лучше описать так, как это видит ваш глаз, например вместо запроса "Крош из смешариков" лучше использовать "Голубой заяц шарообразной формы с голубыми глазами". Так нейросеть лучше поймёт что вы от неё хотите.

Итак, теорию мы прошли. Самое время приступить к практике.

Сейчас и далее по возможности я буду пользоваться сайтом https://fusionbrain.ai/diffusion. Там всё абсолютно бесплатно. Нужно лишь принять условия использования. Однако, сразу предупреждаю, что изображения НЕ СОХРАНЯЮТСЯ в автоматическом режиме. Это нужно делать ручками с помощью соответствующего инструмента (о нём будет чуть ниже).

Начнём с интерфейса:

Панель инструментов генерации
Рабочая область и зона генерации
Панель инструментов редактирования и сохранения готового изображения
Выбор стиля
Поле для запроса
Масштаб рабочей зоны

Я опущу более детальное описание каждой функции, ибо иконки говорят сами за себя, единственное что скажу, так это то, что Ctrl+Z отменит предыдущее изменение текста, а не изображения. Для этого есть соответствующая кнопка.

Самое время начать творить чудеса. Давай придумаем запрос. Первым делом придумаем объект, который будет основным в композиции. Например: "Кот воин". Далее должно быть действие. Допустим он держит катану. В конце идут всевозможные дополнительные параметры, которые улучшают качество изображения. Я использую следующие параметры: "4К, высокое качество, детализировано". Итоговый запрос будет следующим: "Кот воин держит в руках японскую катану, японский клинок, катана, 4К, высокое качество, детализировано".

Кот воин держит в руках японскую катану, японский клинок, катана, 4К, высокое качество, детализировано

Вот такой кот у нас получился. Нажимаем сохранить и выделяем область, которую хотим скачать. Рамку можно не только двигать, но и изменять её размер во всех 4 направлениях как вам угодно, единственный недостаток - нельзя масштабировать рабочую область при сохранении.

Зачем же я использую повторения? Всё просто. Так нейросети легче понять что конкретно вы от неё хотите, не стесняйтесь использовать синонимы или даже повторения, но не переусердствуйте с ними.

А что же делать, если результат мне не понравился? Просто пересоздайте его. Нейросеть будет брать в учёт всю сгенерированную в последний раз область. Немного не понятно, правда? 😅 Ну ничего страшного. Когда мы будем дорисовывать изображение всё встанет на свои места. Давайте создадим что-нибудь широкое. Например улицу фентези города. Но не просто улицу, а в стиле аниме. Да, тут есть такая возможность, и даже больше вам скажу, в запросе вы можете прописывать несколько стилей и нейросеть будет пытаться их совместить, однако, приоритет будет у того, что стоит раньше по тексту (в прочем как и у всех слов).

Итак. Нажимаем на "Без стиля" и видим всплывший список. Выбираем нужный нам стиль, в нашем случае это Аниме, и готово. Пишем запрос, нажимаем создать и смотрим что получится. Если вы знаете стиль, которого нет в этом списке вы можете его указать как параметр. Это касается как платформ по типу Artstation, так и художников, причём чем популярнее работы тем точнее нейросеть будет подражать этому стилю.

Итак, у нас есть первое сгенерированное изображение. Можно использовать и картинку из интернета, с помощью соответствующего инструмента, однако, мне приятнее создавать изображения с 0. Далее всё просто. Перетаскиваем рамку куда нам нужно. В моё случае на 1/8 клетки вправо. Для точности выставьте масштаб на 180% (это максимально доступный). После чего с помощью "руки" поставьте обзор так, как изображено ниже.

Выставляем так, чтобы линии рамки были продолжением линий сетки. После этого настоятельно рекомендую выставить обзор так, чтобы после генерации сразу было видно всю новую область (та, что вне изображения, но внутри рамки) и поставить масштаб на 100%, потому что после нажатия кнопки "Создать" все инструменты отключатся на время генерации.

Получилось чуть-чуть расширить изображение. Повторяем так несколько раз. Неудачные результаты пере генерируем.

Классно получилось. Вот только окна странные. Не беда. Сотрём лишнее ластиком и сгенерируем снова, изменив запрос на "стеклянное фентези окно коттеджа, деревянная рама". Для этого выбираем инструмент ластик. У него можно менять размер при помощи ползунка. Размер изменяется от 1 до 10. По умолчанию стоит 5. Стираем большие куски 5 ластиком, а потом постепенно уменьшаем его размер и чистим мелкие огрехи, после чего меняем запрос и нажимаем Создать.

Вот что у нас получилось в итоге. Скачиваем получившееся изображение. Для этого нажимаем на соответствующий инструмент.

У нас появилась пунктирная рамка. Именно эту область сайт захватит и сохранит на вашем устройстве. За точки можно изменять размер рамки, а нажав и удерживая область внутри неё рамку можно перемещать. Учтите, что масштабирование в режиме сохранения недоступно, а захватить можно лишь область, которая видна на экране.

Что ж, осталось только нажать "Скачать". Но если вам нужно что-то исправить, то всегда можно нажать на отмену.

На всякий случай залью сюда результат работы. Вдруг кому-то понравится.

Вот так, выполнив несложные действия мы создали целую фентези улицу в стиле аниме. Думаю после этой статьи выкладывать свои работы, а дальше кто знает как повернётся жизнь. А с вами был я, вы были здесь. Всем удачи и хороших генераций изображений!