5852 подписчика

Stable Diffusion - что это такое? Или два слова о том, что нужно знать о генерации изображений в 2023 году.

14 января 202314 янв 2023

180

10 мин

Stable Diffusion — программное обеспечение, создающее изображения по текстовым описаниям, с открытым исходным кодом. Выпущено в 2022 году. Разработана группой компаний CompVis в Мюнхенском университете. Кроме того, в разработке участвовали Runway, EleutherAI и LAION. Код Stable Diffusion является открытым.

Иску́сственный интелле́кт (ИИ; англ. artificial intelligence, AI) — свойство искусственных интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека[1] (не следует путать с искусственным сознанием); наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ[2].

Всем привет!

Меня зовут Евгений, я занимаюсь фотосъемками, производством контента и его продажей на стоках. Именно поэтому меня заинтересовала возможность, которую представляет нам всем искуственный интеллект.

О том, какие есть варианты ИИ, где скачать, как поставить, как пользоваться в интернете достаточно материалов и я не могу писать на эту тему что-то подробное. Я не очень разбираюсь в программировании, очень отдаленно понимаю как работает магия внутри программ или железок, поэтому все эти гайды и руководства не про меня. В постах я уже давно показываю свои и чужие #генерации, а статью решил написать для себя, чтобы более менее обобщить найденное, попытаться найти среди моих читателей таких же увлеченных, чтобы изучать и анализировать работу с контентом вместе. Да, если фотографию толком не с кем обсудить в кругу близких и друзей, то разговор о моделях и генерациях - эт вообще речь марсианина для большинства из нас. "Ну окей, есть такая штука, я понял, ты умеешь ее крутить, ого круто, какие у нее натуральные молочные железы" - это в целом кратко о том, как я могу обсудить с друзьями работу с ИИ.

Как выглядит моя работа с нейронной сетью

У меня стоит достаточно простая сборка с минимумом настроек. С одной стороны меня это печалит, хочется чуть больше инструментария и возможностей. Но для этого надо и разобраться что к чему в софте, как оно работает и изучить массу гайдов, например этот - OpenArt

Search 10M+ of prompts, and generate AI Art via Stable Diffusion, DALL·E

Вот разобраться во всем, изучить - значит вникать в новую для себя область. Это и код, и код в контексте работы с ИИ. Эти всякие незнакомые слова вроде репозиториев, гитхабов, колабов. Читаешь статьи, слушаешь видео и мозг закипает от информации, в которой слова понимаешь через одно. Ну не все так сложно, понятное дело и по силам, но отдохнуть и сделать паузу хочется постоянно.

В общем, я начал проникаться. Фотографируя или снимая видео ты, условно, документируешь реальность. Рисование же - это процесс, когда нечто воображаемое становится результатом на бумаге или на экране. Да, во время фотосессии тоже можно реализовывать свои фантазии, работать на воображаемые темы, но в общем и целом работа разная.

Рисовать с помощью ИИ - это как просить художника, нарисовать то, что хочется. К примеру, у моей жены была такая фантазия: она хотела заказать знакомой девочке-художнику картину с полуобнаженной темнокожей девушкой с большими цветами, типа пионов у нее на голове. Будто корона или венок. Каждый из нас представляет себе после такого описания что-то свое. И теперь представьте, вы приходите к художнику и начинаете описывать. Понял ли он сразу то, что вам нужно? Цвет фона, цвет лепестков, цвет кожи? Что-то еще есть на девушке? На ней майка-футболка-бусы или она просто с обнаженной грудью смотрит с картины? Или грудь прикрыта? Или она не смотрит,а глаза закрыты цветами. А как должны выглядеть лепестки?

Мои генерации, попытка найти нужную композицию.

Вы оставляете заказ, платите нужную сумму в качестве аванаса и уходите в нетерпении, когда же когда же. Проходит время, вы приезжаете в мастерскую и... вот тут я не понимаю, как выглядят отношения с художником дальше? Он брифует и уточняет каждый момент или пишет картину, как ему легла кисточка? А если мне хотелось цветов больше или меньше, крупнее или иначе? Чтобы грудь была другой формы и в целом чуть чуть другие пропорции мне кажутся интереснее. Или я получаю работу завернутую в подарочную бумагу и на этом все?

Раз за разом я делал разные варианты и совсем не уверен, что вот эти мои творческие поиски толковый художник воспринимал бы терпеливо и внимательно. Не уверен, что это количество правок мы бы с ним внесли, потом перечеркнули все и снова внесли. У меня же было бесконечное количество попыток. Я был ограничен только временем и мощностью своего ПК, а по пути делал еще разные варианты и познавал работу с незнакомым мне инструментом.

Я выяснил полезное о настройках SD, попробовал разные разрешения, поставил разные версии моделей, почитал статьи и посмотрел видео об обучении своей модели. Посмотрел другие варианты АИ и покрутил, попробовал генерировать изображения в них. Где-то результат меня впечатлил, но ограниченность в инструментарии и в контроле над работой с моделью - не устраивали. Поэтому я продолжил работать на своей машине.

Время, кстати, на одну генерацию у меня уходило порядка 7-10 минут. Иногда SD зависал и я ночью мог увидеть тот же экран, что и вечером, перед своим уходом. Компьютер всю ночь шланговал и просто гудел вентиляторами, пожирая мое электричество.

Потенциал работы с SD и с АИ я считаю огромным. Пейзажи, машины, элементы дизайна или целиком интерьеры и куски огромных городов с архитектурой фантастического будущего. Другие миры, персонажи, одежда...

К примеру, пока я генерировал красивых русских девушек в купальнике на пляже, пробуя свою любимую летнюю тематику, глядите сколько разных купальников мне сделал мой подмастерья за каких-то полдня? И тебе цвета, и тебе элементы - завязочки/резиночки/форма чашек или там что еще может быть полезно? Фасоны, принты и стиль купальника. Или вот еще вариант:

И все это я вдруг понял, когда в очередной раз пытался сделать портрет красивой девушке в поле. Лицо никак у моего цифрового партнера не получалось "нарисовать", но за сколько разных фасонов платья или деталей рукава я увидел. Поразительно же! :)

Недавно я публиковал пост, в котором один из портретов был вот этот. После я закинул в SD его как образец и попытался сделать разные варианты. Хотелось увидеть, насколько близко/похоже получится и насколько будет разнообразным результат.

Вот галерея с портретами, что у меня получились.

И что меня больше всего впечатляет - это не существующие люди! Их же нет, этож восторг какой-то. Ты воображаешь себе нечто и пробуешь воплотить в реальность. Это ли не творчество?

Да, окей, я понимаю. Киски и краски никто не отменял. Да и не нужно. Потому что рисование, творчество - это то, что человек делает для себя. Это терапия, медитация, поиск в себе ответов на важные вопросы. Это поиски гармонии и прочее прочее. И только в какой-то степени это доходы, заработок и большие гонорары.

Я считаю, что те, кто успел заработать себе имя - останется при этом имени и будет так же успешно заниматься своим делом. Те, кто начинает сегодня и талантлив - да, им придется попотеть. А те, кто не умеет работать с клиентом, не умеет быстро и качественно делать свою работу - ну штош. Теория нашего человеческого естесственного отбора. Как и раньше, водители гужевых повозок оказались на обочине. Я и сам, помните, фотограф. Представляете, как я должен ужасаться, что теперь у меня не будет работы? :)

Я тоже должен переживать. Однако, мне кажется, что это не имеет большого смысла. Мы должны уметь адаптироваться. Да, времена нынче лихие, все изменяется просто по щелчку пальцев и как же успевать? Да никак, можно и жить как жили. Ходить за водой к реке, дом отапливать печкой. Печь блины и ловить птицу на сытный ужин. Никто ведь не запрещает. И это даже интересно. Может подобные деревушки окажутся экзотическими местами, которые будет охранять все человечество и жители будут настоящими экскурсоводами для тех, кто приезжает из городов будущего за впечатлениями.

Мне кажется, работа с #StableDiffusion и подобными #ИИ - это профессии будущего. Да, может быть количества специалистов большого не требуется. Да и сложности особой не видно, знай себе придумывай да жми кнопки. Тексты, музыку, изображения. Потом видео. Все, что нужно быстро и без "бренда" - пожалуйста, генерируй. Но генерации без идеи, без человека - не нужны. Да, если можно будет за вечер сгенерировать комикс от корки до корки... окажутся ли те, кто умеет делать комиксы легендарными без работы? Картинки сделал ИИ, текст написал ИИ и все само быстренько ушло в производство, а утром свежий выпуск читают во всем мире?

Ну тогда давайте прикинем, сколько стоит "рабочая лошадка", чтобы можно было генерировать сотни изображений в час?

Стоимость видеокарты в московских магазинах

Плюс к этому:

материнская плата;
процессор;
память;
жесткие диски;
корпус и блок питания.

Да, у кого-то все это уже есть, но это же вложения. Фотокамеру надо купить, планшет художнику надо купить. Изучить работу приложений, уметь ориентироваться в софте, понимать проблемы и уметь их решать. Железки. Постоянно какие-то вопросы из области ИТ - все это точно так же нужно изучить и освоить. А потом использовать. Разве не точно так же, как и в любой другой профессии? Или есть какие-то занятия у человека к которым не нужно обучать? Родился, подрос и сразу вперед. А, ну может попрошайничество или проституция? Так и здесь хорошие доходы с неба не упадут. Ну и вопрос еще, кто осознанно и на каких условиях выбирает себе эти виды заработка.

Примеры сгенерированных изображений на стоке.

Абсолютно все в жизни можно освоить. Кому-то легче, кому-то сложнее. Кто как и на что скорен. И дальше, самое важное, прогресс на месте не стоит же. Каждый из нас, отдельно, может жить в закрытом мире, но все остальные пойдут дальше. Множество профессий остались в прошлом. Хорошо это или нет - сейчас не имеет особенного значения. Я буду продолжать разбираться в этом вопросе, пока будет такая возможность. Буду генерировать изображения по своим идеям и развивать свое воображение. Буду создавать новые миры, персонажей и делать портреты людей, которых никогда не существовало. Да, красивых девушек теперь будет еще больше, чем было.

А пока мы с вами обсуждаем перспективы - кто то уже продает свои генерации и зарабатывает на этом опыт, развивает свои навыки и получает заслуженный гонорар!

Почти 465 тысяч изображений уже в продаже только на одном стоке. А сколько иллюстраций, исходников для печати на футболках, кружках. Сколько логотипов и красивых заставок уже сделано и продано?

И даже в том случае, когда у меня есть все необходимое. Ведь есть же? Какой-никакой компьютер есть, видимокарточка в нем стоит, оперативки вроде для генераций хватает. Вот я захожу на стоки, беру просто первую интересную мне картинку и пытаюсь ее повторить. Вот картинка:

Чтобы ее "нарисовать", нужно ее описать словами моему инструменту. Для этого я собираю promt - запрос, состоящий из описания, ключевых слов и его нужно сделать таким, чтобы повторить результат. Какие бы вы предложили описания? Какие слова бы использовали вы?

Да, времени я не тратил на это, быстро закинул в качестве образца, быстро накидал пару слов и короткое описание. Вот первый результат моих генераций:

Как вам? :)

Понимаете мою мысль? Мы все и практически всегда имеем необходимое под рукой. Информацию, инструменты, возможность учиться и использовать на практике то, что умеем или знаем. И вот мои знания и навыки в сумме с моим оборудованием дают такой результат. Даже сейчас, пока пишу этот текст, мой ПК генерирует новые версии. Сколько из них будут удачными? Сколько из них надо дорабатывать.

Вот это простая и понятная концепция. Только человек с целью, с пониманием, с навыками и ресурсами может добиваться результатов и конкурировать. Другие будут просто охать и ахать о том, что мы все умрем. :)

Ну что.
Простыня у меня получилась знатная. Надеюсь, что появятся желающие обсудить ИИ, все это дело, кто-то подскажет мне, как можно оптимизировать работу и не ждать по 10 минут одно изображение. Можеть есть способы ускорить это дело. Может кто-то скажет: вот тебе денег, купи себе новую видимокарточку и давай уже, покажи миру все, что ты можешь! :)

Комментарии открыты, а вы, надеюсь, знаете, чего вы на самом деле хотите от Stable Diffusion или просто узнали чуть больше о том, что нас сейчас окружает.

У меня действительно много разных генераций. Многие из них нельзя публиковать на дзене из за ограничений, которые на канал могут наложить. Поэтому я все это дело тихонько заливаю в своей телеграм-канал: Креатив Продюсьон

Если вам интересно или хочется оперативной связи со мной - добро пожаловать! :)

Пусть это будет первая, вводная часть серии постов о том, что я делаю с контентом, какие направления в работе мне интересны, сколько я чего нагенерировал и что новенького узнал. Попробую разобраться в том, как тренировать модель, какие версии сейчас актуальны и как вообще все это дело освоить обычному человеку с простым компом.

Остаемся на связи!