Найти в Дзене

Диффузионные нейросети или что такое Midjourney и Stable Diffusion

За время работы ко мне не раз обращались с просьбой объяснить что такое Stable Diffusion и Midjourney. Об этом можно много говорить в диалогах. Дабы сэкономить себе время и нервы, я просто буду отправлять людей на эту статью. Самое первое что хочу отметить, что даже после прохождения курсов по нейросетям многие так и не понимают что это такое. Как этим правильно пользоваться, как применять профессионально. А главное как в этом расти. Чтобы разобраться в этом вопросе окончательно, нужно знать что такое диффузионная модель. Диффузионная модель — это математическая модель, используемая для описания процессов принятия решений и генерации данных. В простых словах, она работает по принципу постепенного накопления информации или преобразования случайного шума в структурированные данные. Шум в диффузионных моделях помогает создавать новые изображения из ничего. Модель начинает с хаоса (шума) и постепенно превращает его в что-то осмысленное и красивое. Представим кусок пластилина в руках, и ка
zudcreatives - midjourney
zudcreatives - midjourney

За время работы ко мне не раз обращались с просьбой объяснить что такое Stable Diffusion и Midjourney. Об этом можно много говорить в диалогах. Дабы сэкономить себе время и нервы, я просто буду отправлять людей на эту статью.

Самое первое что хочу отметить, что даже после прохождения курсов по нейросетям многие так и не понимают что это такое. Как этим правильно пользоваться, как применять профессионально. А главное как в этом расти.

Чтобы разобраться в этом вопросе окончательно, нужно знать что такое диффузионная модель.

Диффузионная модель — это математическая модель, используемая для описания процессов принятия решений и генерации данных. В простых словах, она работает по принципу постепенного накопления информации или преобразования случайного шума в структурированные данные.

  • Midjourney - закрытая диффузионная модель
  • Stable Diffusion - открытая диффузионная модель

Шум в диффузионных моделях помогает создавать новые изображения из ничего. Модель начинает с хаоса (шума) и постепенно превращает его в что-то осмысленное и красивое.

Представим кусок пластилина в руках, и как мы придаём ему форму.
Пластилин -
шум
Мы -
интеллект

По тому же принципу работают диффузионные модели. Они буквально "лепят" изображения из "пластилина".

Пример "лепки" изображения
Пример "лепки" изображения

Теперь, когда мы знаем что изображения генерируется из шума, нам нужно понять как контролировать этот шум и получать изображения, нужные нам.

elpahan - sdxl
elpahan - sdxl

Первое изображение в этой статье я взял со стартовой страницы midjourney. Изображение выше я сгенерировал сам с помощью нейросети stable diffusion xl.

Думаю всем уже известно, что для того, чтобы нейросеть выдала нам какой либо результат, нужно отправить ей запрос/подсказку/промпт.

И Midjourney и Stable Diffusion работают исходя из запросов/подсказок/промптов. Это только начало пути и примерно 10% от всех возможностей контроля шума. Какая из этих нейросетей работает лучше с промптами я покажу в другой статье, где буду сравнивать их. В этой статье мы разбираем общие принципы их работы.

Теперь когда мы знаем что такое шум, и что на него можно воздействовать с помощью промптов. Нам нужно разобраться что такое "веса".

Представим двух художников, которым дали два холста и дали задание сделать один широкий мазок кистью на своём холсте. Художники выполняют задание. И на двух холстах мы видим разные результаты.

Мазки двух разных художников
Мазки двух разных художников

Вроде одинаковое задание, одна и та же краска, одни и те же кисти, но результаты абсолютно разные. Очевидно и понятно, что это два разных человека, и в их мозгах разные нейронные соединения.

То есть сами нейроны, их строение одинаковое, но какие то параметры в них разные, эти параметры и есть "веса" (от слова "вес").

У нас, людей эти параметры (веса) складываются всю жизнь и каждую секунду изменяются. Постоянное изменение этих весов и есть интеллект. Но в нейросетях форма весов статична. Когда модель обучают или до обучают (тюнят, файнтюнят), то работают именно с весами.

В нейросетях веса представляют собой числовые параметры, которые определяют силу связи между нейронами. Каждый нейрон получает входные данные, которые умножаются на соответствующие веса, и затем передает результат на следующий слой. Таким образом, веса играют ключевую роль в процессе обработки информации и обучении нейросети.

Когда мы вводим промпт, мы тоже начинаем работать с весами. Промпты вызывают связи этих весов, создавая образы. Чем больше и точнее промпт, тем лучше и точнее мы получаем результат.

beautiful scenery fantasy glass woman figure landscape, purple galaxy woman
beautiful scenery fantasy glass woman figure landscape, purple galaxy woman

Полное понимание весов - ключ к контролю нейросетей.

Midjourney и Stable Diffusion это два разных художника, их навыки одинаковые, но веса у них разные.

Просто по разному обучены и имеют разный опыт, где то больше, где то меньше, но цель одна, и задания выполняют в целом одинаково.

Контроль весов = контроль изображения.

Существует множество разных типов контроля весов. Самый базовый это "промптинг" или "промпт инженерия". Существует множество более продвинутых и профессиональных техник контроля, о которых я и буду рассказывать на этом канале.

Это было компактное изложение для самого базового понимания нейросетей для генераций изображений. Надеюсь информация была для вас полезной. Подписывайтесь на канал чтобы узнать о самых продвинутых техниках и инструментов контроля. Впереди много полезного и обучающего контента.

С вами на связи Павел, всего вам самого интересного)