Найти в Дзене
Art Bank

Особенности генерации изображений в Midgourney

Для создания видео по мотивам сериала "Игра в кальмара" мне нужно было сгенерировать изображение стеклянной сферы, наполненной деньгами. Казалось, что ничего сложного для нейросети уровня Midjourney не будет. Однако на мой запрос нейросеть выдала совершенно не то, чего я ожидал - очень красиво, даже завораживающе, но не то! Мне нужен был мистический свет, как в церкви, но сеть поняла, что нужно помещение, напоминающее церковь. Денег в сфере нет вовсе, и сфера, хоть и под потолком, но не висит под ним, а находится на полу. Следующий запрос снова породил прекрасную картинку, но такую же далекую от цели: По-прежнему в сфере денег нет вовсе, и сфера не хочет висеть под потолком, а крепко стоит на полу. Я упростил запрос, чтобы подтолкнуть нейросеть в нужном направлении - опять не то. Видимо, слово сфера воспринимается нейросетью, как атмосфера, поэтому внутрь каждого стеклянного шара аккуратно помещена Земля или какая-то схожая планета, деньги уже есть, но их мало, а сам шар - классичес
Большая стеклянная сфера, висящая под потолком, наполненная большим количеством денег - то самое изображение, которое мне требовалось
Большая стеклянная сфера, висящая под потолком, наполненная большим количеством денег - то самое изображение, которое мне требовалось

Для создания видео по мотивам сериала "Игра в кальмара" мне нужно было сгенерировать изображение стеклянной сферы, наполненной деньгами.

Казалось, что ничего сложного для нейросети уровня Midjourney не будет. Однако на мой запрос нейросеть выдала совершенно не то, чего я ожидал - очень красиво, даже завораживающе, но не то!

Стеклянная сфера, полная денег под высоким потолком, мистический свет, как в церкви, стиль: Готика
Стеклянная сфера, полная денег под высоким потолком, мистический свет, как в церкви, стиль: Готика

Мне нужен был мистический свет, как в церкви, но сеть поняла, что нужно помещение, напоминающее церковь. Денег в сфере нет вовсе, и сфера, хоть и под потолком, но не висит под ним, а находится на полу.

Следующий запрос снова породил прекрасную картинку, но такую же далекую от цели:

Стеклянная сфера, полная денег ВИСИТ под высоким потолком, мистический свет, как в церкви, стиль: Готика
Стеклянная сфера, полная денег ВИСИТ под высоким потолком, мистический свет, как в церкви, стиль: Готика

По-прежнему в сфере денег нет вовсе, и сфера не хочет висеть под потолком, а крепко стоит на полу.

Я упростил запрос, чтобы подтолкнуть нейросеть в нужном направлении - опять не то.

Стеклянный шар, наполненный деньгами
Стеклянный шар, наполненный деньгами
Стеклянный шар, наполненный большим количеством денег
Стеклянный шар, наполненный большим количеством денег

Видимо, слово сфера воспринимается нейросетью, как атмосфера, поэтому внутрь каждого стеклянного шара аккуратно помещена Земля или какая-то схожая планета, деньги уже есть, но их мало, а сам шар - классический сувенирный шар.

Было еще несколько итераций, пока я не понял, что нейросети нужно показать, чего я от нее хочу, т.к. выяснилось, что Midjourney, как и люди, предпочитает, чтобы ей показали, что от нее требуется, чем долго и нудно объясняли на пальцах.

Я показал нейросети скриншот кадра из сериала с объемным стеклянным шаром, полным денег, убрал упоминание мистического свет, заменил готический стиль на реализм и получил что-то, напоминающее первый шаг в правильном направлении.

Стеклянная сфера, полная денег под высоким потолком, стиль: Реализм
Стеклянная сфера, полная денег под высоким потолком, стиль: Реализм

Однако вместо денег в сфере какие-то неясные объекты, напоминающие грибы или чешую, а в одной из сфер опять какая-то планета

Пришлось показать нейросети, фоторгафию денег.

Фотография денег для обучения нейросети
Фотография денег для обучения нейросети

После этого объединить с предыдущим запросом и вуаля - Midjourney выдала необходимый результат.

Большая стеклянная сфера, висящая под потолком, наполненная большим количеством денег, вид с пола, стиль: реализм
Большая стеклянная сфера, висящая под потолком, наполненная большим количеством денег, вид с пола, стиль: реализм

Как видно, нейросети Midjourney лучше один раз увидеть, чем получить сто текстовых описаний.