Обзор на генерацию изображений посредством нейросетей
Играюсь с нейросетями примерно год, успел пощупать замену голоса, дипфейки, генераторы озвучки, подробнее остановился на генерации изображений, так как программировать не умею, а качать ноды (узлы, выполняющие узконаправленную функцию), модели к ним и создавать воркфлоу (совокупность соединённых "нод" для решения конкретной задачи) до сих пор не надоело.
Работаю я со Stable Diffusion XL в интерфейсе ComfyUI, я не приемлю платные варианты, потому как:
- я хочу иметь полный контроль над генерацией
- я не хочу, чтобы в полёте фантазии меня ограничивала цензура проприетарных ресурсов
- я не хочу платить деньги капиталистам, и вообще, когда-нибудь наступит тот день, когда все компьютеры будут на Linux, а свободный код захватит мир.
Есть ещё интерфейс Automatic1111, но мне было лень с ним разбираться, да и в сравнении с ComfyUI он мало что поддерживает и медленнее работает.
Если вы посмотрите на прикреплённое фото, вы увидите много рамочек разного цвета.
Бордовый - изображения на вход, результат работы промежуточных нод, результат генерации.
Серый - ноды, отвечающие за подгрузку модели (набор "исходников", если грубо), интерпретатора промптов (переводит слова в машинный код), VAE (автокодировщик, дорабатывает изображение из шума латентного пространства) и латентного пространства (очень объёмный термин, в нашем случае - это некий участок, в пределах которого с каждым "шагом" генерации пиксели принимают заданную сэмплером в рамках промпта форму).
Зелёный - окна промптов и сэмплера (там ещё девять нод посередине, они относятся к синей группе).
Вот это - обязательные элементы любого воркфлоу, без которых вы изображение не получите.
Синий - кастомные ноды, отвечающие за подачу в сэмплер дополнительной информации, их тьма тьмущая.
Фиолетовый - выключенные ноды.
Жёлтый - постобработка готового изображения, типа фиксит лица от косяков, может редактировать выражение лица.
1) Простота освоения - 3/10.
Вам придётся подружиться с командной строкой и различными ресурсами по типу GitHub, HuggingFace, Civitai, чтобы банально иметь возможность поставить интерфейс и требования для его работы себе на комп. Отдельная свистопляска - когда в процессе установки разные компоненты требуют разные версии библиотек и программ - чтобы с этим ладить, нужно дополнительно познакомиться с виртуальными средами и Docker'ом. Большой плюс, если вы работали с терминалом. Познания в инглише приветствуются, так как вы гарантированно будете искать ошибки в командной строке и пытаться их исправить, читая багрепорты индусов по вашей проблеме. Большинство гайдов тоже на английском.
Отдельная тема - постобработка изображений. Руки-клешни с лишними пальцами, кривые заборы, скамейки, искажения от латентного пространства - всё это и многое другое вам нужно править в графических редакторах. Треба умение работать со слоями как минимум. Мне с головой хватает базового GIMP'а.
2) Процесс работы - 8/10.
Это хобби даёт ощущение могущества. В принципе, если вы видели рекламу про "нарисуем твою жену на холсте" - это оно и есть, только вы можете бонусом прибавить человеку три десятка килограмм, сменить расу, возраст, пол, сделать фурри и выполнить это в стиле аниме-фигурки на фоне красивого горного пейзажа. На вход можно подать стиль работ художника и нагенерировать контента в его стиле (всем "честным" художникам пламенный привет). Вы можете редактировать исходные фото, есть ноды под удаление объектов, под сегментирование по каким-либо признакам и формирование маски (полезно для "примерки" одежды, тут хлеб отбирается уже у моделей), под рисование карты глубины и так далее - вы ничем не ограничены. Вы вольны генерировать в том числе и 18+ контент, после чего вы, вероятно, захотите удалить свои фото со всех ресурсов.
Реально, здесь можно залипать часами.
3) Системные требования - 2/10.
Это всё требует приличных мощностей для локального запуска. Моя ноутбучная 3070 на 8gb неплохо тянет генерацию изображений на SDXL и с несколькими кастомными нодами, но Flux уже под завязку забивает видеопамять, и генерация идёт очень медленно. Генерация видео - вообще ахтунг, даже на моей системе ComfyUI сыпет ошибками по видеопамяти. Есть варианты настройки через Google Colab, но как по мне, это не очень удобно.
4) Реакция общественности - 6/10
В ваших руках мощнейший инструмент для создания мемов. Людям важно дать понять, что вы способны только на это. Насчёт остального распространяться себе дороже, в лучшем случае вас доканают с просьбами, в худшем - перестанут с вами общаться.
Однако мемы лайкаются на ура, особенно когда они сделаны качественно.
Вообще, когда я ищу себе натренированные модели, я то и дело натыкаюсь на модели с NSFW, обнажёнными потными ногами, аниме и фурри-проном, вот они пользуются популярностью. Так что для многих людей это всё - способ удовлетворить свои фетиши, и это замечательно, на самом деле.
Никто из нас не святой.
Помимо этого есть много материала для графических дизайнеров, это вторая большая целевая аудитория Stable Diffusion. Есть инструменты и для создания цифровых инфлюенсеров.
Это всё очень глубоко проникло в наш мир, и нам теперь с этим жить, хотите вы этого или нет.
6) Собственные ощущения - 8/10.
Это как изучать какой-нибудь Некрономикон. Сначала ты ничего не понимаешь, потом, с ростом навыка написания промптов и работы с интерфейсом, тебе становится страшно, и ты зарекаешься не пересекать грань. Но с каждой новой генерацией грань размывается, и без наблюдения со стороны сложно понять, как далеко ты зашёл. Но первые ощущения незабываемы. Есть в этом что-то таинственное, запретное, даже греховное. Чувствуешь себя адептом того самого пластмассового мира, который победил.
5) Рыгучесть - 7/10.
Когда я в первый раз увидел раздвоенные конечности с торчащими во все стороны пальцами аки веер - захотелось смачно так рыгнуть. Потом, конечно, привыкаешь.