Добавить в корзинуПозвонить
Найти в Дзене

О навыках проектирования промпта для создания изображений с использованием искусственного интеллекта

Время на прочтение~15 минут. Прокомментированный перевод статьи Elevating Your Prompt Engineering Skills for AI Image Creation из блога DeepDreamGenerator.
Сегодня я постараюсь пользуясь достоверным и на мой взгляд актуальным источником переложить опыт, пожалуй, самого первого сервиса ИИ для создания изображений на работу с нейросетью Кандинский 3.1, за развитием которой я слежу уже больше двух лет. Сталкиваясь с необходимостью получить новые знания для работы с ИИ при создании изображений и обращаясь к поиску, я редко могу быстро получить доступные для понимания сведения. Это связано и с быстрым развитием технологий и, возможно, с попыткой многих авторов заявить о себе параллельно получив выгоду от публикаций. В этом тексте я постараюсь используя рекомендации авторов оригинальной статьи получить новый опыт работы с нейросетью Кандинский 3.1, что бы улучшить результаты и начать понимать происходящее на экране немного лучше. Сразу оговорюсь Кандинский 3.1 (К) - отлично работает не тольк
Оглавление

Время на прочтение~15 минут.

Прокомментированный перевод статьи Elevating Your Prompt Engineering Skills for AI Image Creation из блога DeepDreamGenerator.
Сегодня я постараюсь пользуясь достоверным и на мой взгляд актуальным источником переложить опыт, пожалуй, самого первого сервиса ИИ для создания изображений на работу с нейросетью
Кандинский 3.1, за развитием которой я слежу уже больше двух лет.

Сталкиваясь с необходимостью получить новые знания для работы с ИИ при создании изображений и обращаясь к поиску, я редко могу быстро получить доступные для понимания сведения. Это связано и с быстрым развитием технологий и, возможно, с попыткой многих авторов заявить о себе параллельно получив выгоду от публикаций.

В этом тексте я постараюсь используя рекомендации авторов оригинальной статьи получить новый опыт работы с нейросетью Кандинский 3.1, что бы улучшить результаты и начать понимать происходящее на экране немного лучше.

Сразу оговорюсь Кандинский 3.1 (К) - отлично работает не только с промптами на русском языке, но и на английском и даже смеси этих языков, что иногда дает получить довольно интересные результаты.

Поехали!

(DDG) Очевидно, что чем больше рисунков с использованием искусственного интеллекта вы создаете, тем опытнее становитесь. Большая часть этого опыта связана с написанием более качественных графических подсказок. По мере того как вы переходите от статуса новичка к среднему уровню, крайне важно совершенствовать и расширять свои методы, чтобы передавать более сложные художественные видения в системы искусственного интеллекта, такие как Deep Dream Generator (DDG). В этом руководстве рассматриваются промежуточные стратегии, которые основаны на базовых навыках написания подсказок и позволяют создавать более сложные и детализированные иллюстрации с использованием искусственного интеллекта.
Примечание: все изображения в этом посте были сделаны с помощью модели AIVision от DDG, которая лучше всего подходит для получения изображений с высокой детализацией. (Тут стоит напомнить, AIVision от DDG - это очень удачная модель из расширенной, платной подписки, но у всех пользователей есть возможность трижды в сутки воспользоваться ей бесплатно - что является очень приятным и удачным маркетинговым ходом)

Искусство детализации контекста и окружающей среды

Промежуточное написание подсказок предполагает более глубокое понимание контекста и окружающей среды, которые необходимы для создания многослойных, насыщенных образами изображений с помощью искусственного интеллекта. Вместо того чтобы предоставлять ИИ упрощенное описание предмета, промежуточные методы поощряют включение хорошо подобранных фоновых элементов и атмосферных деталей, которые дополняют и усиливают фокус.

Пример: Детализация состояния окружающей среды
Я буду использовать как оригинальные подсказки, так и переводы

Basic Prompt: “A dog in a garden.” (Собака в саду)

Detailed Prompt: “A golden retriever lounges under the cherry blossoms in a serene garden, its coat shimmering in the spring sunlight, with petals gently drifting onto its peaceful, dozing form.” (Золотистый ретривер нежится под цветущей вишней в безмятежном саду, его шерсть переливается в лучах весеннего солнца, а лепестки нежно падают на его умиротворенную, дремлющую фигурку)

Результат работы DDG
Результат работы DDG

Здесь можно увидеть результаты работы вышеприведённой подсказки в Кандинском 3.1. Иногда я использую модель "Рисунок карандашом" она дает интересные художественные результаты похожие на настоящие рисунки, которые можно исправить в графическом редакторе, Так же хочу заметить - я обратил внимание, что можно открыть несколько окон в браузере пользуясь одной учеткой и получать изображения в большем количестве, что ускоряет поиск новых форм взаимодействия.

Результат с использованием "своего стиля" Можно увидеть, что результат с промптом детально описывающим окружающую среду получился не менее приятным глазу в Кандинском 3.1
Результат с использованием "своего стиля" Можно увидеть, что результат с промптом детально описывающим окружающую среду получился не менее приятным глазу в Кандинском 3.1

(DDG) В то время как упрощенная подсказка приводит к получению неописуемого изображения, подробная подсказка предоставляет ИИ контекстуальные подсказки, которые повышают его способность создавать яркую и захватывающую среду. Такие детали, как мягкий весенний солнечный свет, не только освещают пейзаж, но и подчеркивают теплоту и умиротворенность этого времени года, вызывая ощущение обновления и спокойствия. Кроме того, использование лепестков вишни, мягко опускающихся на собаку, придает образу нежность и эфемерность, придавая эмоциональную атмосферу нотку поэтической безмятежности. Эти элементы в сочетании с безмятежной обстановкой сада способствуют созданию произведения искусства, которое является не только визуально привлекательным, но и эмоционально резонансным, приглашая зрителя почувствовать себя частью этого умиротворяющего момента.

Сенсорные, эмоциональные характеристики и синестезия

Прежде чем я продолжу читать перевод - узнаю значение нового слова со ссылкой на вики. (В тексте статьи популярно описывается этот термин, но небольшая ссылка как минимум полезна для общего развития.

Синестези́я (от др.-греч. συναίσθηση < σύν «вместе» + αἴσθησις «ощущение») или синдром Шерешевского — нейрологический феномен, при котором раздражение в одной сенсорной или когнитивной системе ведёт к автоматическому, непроизвольному отклику в другой сенсорной системе Человек, который переживает подобный опыт, — синесте́т.

Статья объемная и увлекательная, особенно меня позабавил один из примеров
Эффект «буба — кики». В эксперименте, впервые разработанном Вольфгангом Кёлером, людей просят выбрать, какую из двух фигур они назовут «Бубой», а какую «Кики». 95—98 % людей в качестве «Кики» выбирают угловатую фигуру, а «Бубой» называют округлую. Люди с острова Тенерифе показали аналогичные предпочтения между фигурами, называемыми «Такете» и «Малума». Даже дети возрастом 2,5 года (слишком маленькие, чтобы уметь читать) демонстрируют такой же результат

Тесты наподобие этого демонстрируют, что люди не соединяют звуки и зрительные формы произвольно. Какую фигуру Вы бы назвали «Буба», а какую «Кики»?
Тесты наподобие этого демонстрируют, что люди не соединяют звуки и зрительные формы произвольно. Какую фигуру Вы бы назвали «Буба», а какую «Кики»?

Другое определение синестезии — явление восприятия, при котором раздражение одного органа чувств (вследствие иррадиации возбуждения с нервных структур одной сенсорной системы на другую) наряду со специфическими для него ощущениями вызывает и ощущения, соответствующие другому органу чувств. Следует учитывать, что синестезия не является психическим расстройством.

(DDG) На среднем уровне эффективное использование сенсорных и эмоциональных дескрипторов (эмоциональный дескриптор — это слово, словосочетание слов или предложение в тексте, семантика и структура которых помогают установить выражение общей эмоциональности, а также специфицировать эмоцию, выражаемую данным предложением) может значительно улучшить интерпретацию подсказок искусственным интеллектом, наполняя сгенерированные изображения настроением и чувствами. Описание сенсорных ощущений – таких как звуки, запахи или тактильные ощущения – может помочь ИИ создавать произведения искусства, которые не только выглядят визуально привлекательно, но и вызывают сенсорную реакцию у зрителей.

Вы можете пойти еще дальше и поиграть с идеей синестезии при создании произведений искусства с искусственным интеллектом. Есть интересный термин, который стоит знать! Синестезия - это увлекательный феномен восприятия, который первоначально наблюдали психологи и нейробиологи. При синестезии органы чувств соединяются необычным образом, позволяя некоторым людям воспринимать один тип ощущений через другой. Например, человек, страдающий синестезией, может видеть определенные цвета, когда слышит определенные звуки, или ассоциировать определенные формы с ароматами. Это уникальное сенсорное совпадение происходит из науки, но оказывает значительное влияние на искусство.

В поэзии синестезия может сочетать чувственные детали слов с их “музыкальным” звучанием, усиливая эмоциональную и сенсорную привлекательность стихотворения. Аналогичным образом, в инструментальной музыке она может связывать мелодии с цветами или историями, давая слушателям более яркие и “повествовательные” впечатления. Художники-визуалисты могут использовать цвета и формы, которые вызывают звуки, текстуры и другие виды ощущений, создавая картины или скульптуры, которые привлекают не только зрительное восприятие. Синестезия в искусстве позволяет создателям предлагать более насыщенные и захватывающие впечатления, объединяя различные сенсорные восприятия инновационными способами.

Искусственный интеллект
понимает синестезию и может попытаться интерпретировать ее эстетически, когда вы используете ее в подсказке. Это может побудить искусственный интеллект синтезировать мультисенсорные ощущения в единое, целостное “iconic” (здесь я не смог подобрать перевод, так как значение слова икона и смысл который вкладывают в него англоговорящие - сильно отличается от нашего) изображение, усиливая эмоциональный резонанс и сенсорную глубину произведения искусства, делая его более захватывающим и увлекательным для аудитории. Заставляя искусственный интеллект учитывать эти синестетические описания, вы даете возможность более богатой и детальной интерпретации, которая может увлечь и заинтриговать зрителей своей многослойной сенсорной привлекательностью. Конечно, этот подход экспериментальный и довольно непредсказуемый: приготовьтесь к сюрпризам!

Пример: Сенсорные дескрипторы и синестезия

Basic Prompt: “A morning in a coffee shop.” (Утро в кофейне)
Synesthetic Prompt: “In a delightful and sensuous synesthesia, the warm, inviting aroma of freshly ground delicious morning coffee fills the air in a stylish bustling city café, where soft jazz mingles with the murmur of morning chatter and the clink of ceramic cups resonates softly in the background.” (В восхитительной и чувственной синестезии теплый, манящий аромат свежемолотого вкуснейшего утреннего кофе наполняет воздух стильного оживленного городского кафе, где мягкий джаз смешивается с шумом утренней болтовни, а звон керамических чашек мягко звучит на заднем плане.)

(DDG) В результате нашего “синестетического” эксперимента была создана “авангардная” – полуабстрактная, полупрезентативная - цифровая картина, изображающая стилизованную сцену кафе, которая прекрасно передает суть сенсорных переживаний и синестезии, описанных в подсказке. Визуальные элементы сочетают в себе восприятие формы, цвета, аромата, вкуса и звука, создавая насыщенную, мультисенсорную атмосферу. Теплые, манящие оттенки передают аромат свежемолотого кофе, в то время как мягкие, плавные линии напоминают о нежном журчании утренней болтовни и успокаивающих нотах джаза. Игра гармоничных цветов и текстурированных деталей напоминает звон керамических чашек, погружая зрителей в восхитительный сплав чувственных наслаждений, который выходит за рамки простого визуального представления.

По крайней мере, это одна из возможных интерпретаций изображения. Синестезия субъективна. Восприятие сильно варьируется.

Включение динамичных элементов и действий

(DDG) Выходя за рамки статичных сцен, подумайте о том, чтобы ввести динамичные элементы и действия, которые предполагают движение и прогресс в художественном произведении. Этот прием может сделать изображения более живыми и привлекательными, передавая повествование или последовательность событий.

Динамизма можно добиться различными способами, например, изобразив фигуры в движении, например, бариста, умело разливающего кофе, или оживленно беседующих посетителей. Игра света и тени также может передать течение времени, когда солнечный свет, проникающий сквозь окна, создает меняющиеся узоры на сцене. Использование таких элементов, как трепещущие лепестки цветущей вишни или пар, поднимающийся из чашки, создает ощущение непосредственности и присутствия.

Кроме того, использование цветовых градиентов и текстур для обозначения изменений в окружающей среде, таких как шелест листьев на ветру или отражения на полированной поверхности, может еще больше усилить ощущение активности и движения. Все эти приемы в совокупности создают яркое, динамичное художественное произведение, которое затрагивает множество чувств и приглашает зрителей погрузиться в разворачивающуюся историю.
Пример добавления динамики в изображение

Basic Prompt: “A boat with a rower on a lake.” (Лодка с гребцом на озере)

Dynamic Prompt: “A sleek canoe with a rower slicing through the misty waters of a serene lake at dawn, as paddle strokes create ripples and disturb the perfect reflection of the surrounding lush, green forest.” (Изящное каноэ с гребцом рассекает туманные воды безмятежного озера на рассвете, а удары весла создают рябь и нарушают идеальное отражение окружающего пышного зеленого леса)

Эта подсказка не только указывает на объект и сцену, но и вводит в действие – гребля, движение воды и взаимодействие с окружающей средой, – что предоставляет ИИ элемент повествования для изучения при визуальном отображении. Искусственный интеллект создал молодого гребца, рассекающего воду точными, мощными гребками, привнося в происходящее ощущение энергии и движения. Движение весла, нарушающее идеальные отражения в воде, добавляет динамичности, подчеркивая контраст между спокойствием озера и активностью в нем. Рябь, расходящаяся по безмятежным водам, свидетельствует о непрерывном, развивающемся взаимодействии между гребцом и его окружением.

Одним из дополнительных аспектов изображения является повествовательность. Запечатлевая момент рассвета при мягком естественном освещении, произведение искусства передает ощущение времени и прогресса, усиливая общий динамизм. Туман и пышный зеленый лес, обрамляющий сцену, придают ей глубину и текстуру, создавая яркое, притягательное впечатление, которое вовлекает зрителя в разворачивающееся событие. Такое сочетание элементов – действия, окружающей среды и освещения – работает вместе, создавая живое, привлекательное изображение, которое кажется одновременно реалистичным и динамичным.

Продвинутое использование модификаторов стиля и тона


(DDG)
По мере того, как вы набираетесь опыта, решающее значение приобретает умение манипулировать модификаторами для настройки стиля, интонации и художественного подхода ИИ. Модификаторы могут улучшить то, как ИИ интерпретирует и реализует визуальный стиль, независимо от того, стремитесь ли вы к сюрреалистическому, гиперреалистичному или импрессионистическому изображению. Тщательно выбирая и комбинируя эти модификаторы, вы можете направлять искусственный интеллект на создание произведений искусства, которые в большей степени соответствуют вашему видению. Например, добавление таких терминов, как “сказочный” или “неземной”, может придать изображению ощущение потусторонности, в то время как такие описания, как “яркий” или “четкий”, могут повысить четкость и детализацию.

Изменение тона с помощью таких слов, как “меланхоличный” или “радостный”, может изменить эмоциональное воздействие произведения искусства, создавая более захватывающий и запоминающийся эффект. Кроме того, выбор художественных приемов, таких как “мазки кистью” для создания живописного эффекта или “высокая контрастность” для эффектного освещения, позволяет точно настроить конечный результат. Освоив использование этих модификаторов, вы сможете в полной мере использовать возможности искусственного интеллекта, достигая широкого спектра художественных проявлений и расширяя границы творческих возможностей.

Пример использования модификаторов

Basic Prompt: “A portrait of a woman.” (Женский портрет)

With Proper Modifiers: “A portrait of a woman in the late afternoon, her face illuminated by the golden hues of sunset, casting long shadows that accentuate the graceful lines of her cheekbones and the soft curve of her smile, reminiscent of a Renaissance painting. (Портрет женщины в послеполуденный час, ее лицо, освещенное золотыми оттенками заката, отбрасывает длинные тени, подчеркивающие изящные линии ее скул и мягкий изгиб улыбки, напоминающий картину эпохи Возрождения.)

Оригинальное изображение из статьи
Оригинальное изображение из статьи

Определяя условия освещения, желаемый художественный стиль и эмоциональное воздействие, наши последние подсказки более точно направляют искусственный интеллект, побуждая его создавать работы, соответствующие определенным художественным стандартам и эмоциональному тону. В данном случае упоминание золотистых оттенков заката побуждает искусственный интеллект использовать теплые, насыщенные цвета, которые вызывают ощущение спокойствия и красоты, связанное с этим временем суток. Описание художественного стиля как напоминающего живопись маслом эпохи Возрождения помогает убедиться, что изображение включает в себя классические элементы, такие как детализированные текстуры, изящные линии и утонченное использование света и тени.

Результат от Кандинского 3.1 думаю можно легко угадать, где промт был простым.
Результат от Кандинского 3.1 думаю можно легко угадать, где промт был простым.

Такой уровень детализации в подсказке не только влияет на визуальные аспекты, но и помогает создать особое настроение, создавая безмятежную и созерцательную атмосферу, которая усиливает эмоциональную связь со зрителем. Тщательно разрабатывая подсказку с учетом этих элементов, мы используем возможности искусственного интеллекта для создания портрета, который отличается не только визуальным мастерством, но и эмоциональной глубиной и историческим резонансом, отражает желаемые художественные стандарты и вызывает желаемые чувства.

Усложнение сложных предложений


(DDG) Особенно если вам нужен сложный и детализированный дизайн с использованием искусственного интеллекта, ваши подсказки часто выигрывают от использования сложных предложений, которые объединяют несколько элементов и инструкций в единое целое. Такой подход позволяет создавать более достоверные изображения, направляя ИИ по более сложному набору указаний и позволяя ему лучше понять ваши намерения. Использование сложного синтаксиса особенно полезно, поскольку оно логически упорядочивает детали, обеспечивая четкую передачу каждого аспекта запроса и определение приоритетов. Например, хорошо структурированная подсказка может описывать условия освещения сцены, основных персонажей, их действия и общее настроение или атмосферу. Объединяя эти компоненты в логическую синтаксическую структуру, искусственный интеллект может лучше интерпретировать и реализовывать желаемый результат.

Кроме того, рекомендуется расположить все визуальные детали текстового запроса в порядке
убывания важности. Этот метод гарантирует, что если ИИ придется “пожертвовать” некоторыми элементами из-за сложности запроса, он опустит наименее важные детали, появляющиеся в конце вашего запроса. Начиная с самых важных аспектов, таких как основной объект или ключевые особенности окружающей среды, а затем постепенно добавляя дополнительные детали, вы помогаете сохранить целостность основного видения. Такой структурированный подход позволяет ИИ в первую очередь сосредоточиться на важных элементах, тем самым создавая более точное и последовательное изображение, даже когда он сталкивается со сложными или плотно упакованными инструкциями.

Пример

Basic Prompt: “A sunset over mountains.” (Закат над горами)

Compound Syntax: “Create a painterly digital landscape of a sunset seen as a fiery blaze over a rugged mountain range, its last rays casting a kaleidoscope of realistic, subtle colors across the sky, while the first stars of the evening twinkle faintly in the gradually darkening horizon.” (Создайте живописный цифровой пейзаж заката, который виден как огненное зарево над скалистым горным хребтом, его последние лучи отбрасывают на небо калейдоскоп реалистичных, нежных цветов, в то время как первые вечерние звезды слабо мерцают на постепенно темнеющем горизонте)

Оригинальное изображение из статьи DDG
Оригинальное изображение из статьи DDG

Это сложносочиненное предложение, которое является нашей второй подсказкой, обогащает сцену множеством визуальных элементов и переходов, предоставляя ИИ возможность визуализировать многослойное и подробное повествование. Упоминание огненного заката над скалистым горным хребтом создает яркую и драматичную атмосферу. Описание последних лучей солнца, отбрасывающих на небо калейдоскоп реалистичных, нежных цветов, добавляет ему глубины и динамизма, наводя на мысль о переходе от дня к ночи. Кроме того, первые звезды, слабо мерцающие на постепенно темнеющем горизонте, создают ощущение времени и движения вперед, усиливая общую атмосферу сцены.
Опыт с горами в Кандинском мне особенно понравился. Пример в результата от нашей сети.

-9

Такой детальный и последовательный подход позволяет искусственному интеллекту улавливать не только непосредственное визуальное воздействие, но и сложную игру света, цвета и текстуры, которые характеризуют этот захватывающий пейзаж. Насыщенность подсказок гарантирует, что искусственный интеллект сможет создавать изображения, которые будут как визуально ошеломляющими, так и вызывающими эмоциональные воспоминания, отражая сложность и красоту природного мира при переходе от заката к сумеркам.

Выводы


(DDG) Используя эти промежуточные методы написания подсказок, вы можете значительно повысить сложность и глубину своих работ, созданных с помощью искусственного интеллекта. При правильном использовании каждая из этих стратегий помогает преодолеть разрыв между вашим творческим видением и реализацией с помощью искусственного интеллекта, позволяя создавать более сложные, эмоциональные и визуально привлекательные работы. Продолжайте экспериментировать с этими техниками и поддерживайте связь с сообществом DDG, чтобы делиться идеями и вдохновением (У DDG сильное сообщество, возможность делиться своими работами с другими участниками, сохранять свои работы и использовать чужие промпты, как оригинальные так и модифицировать их, этого функционала очень не хватает Кандинскому 3.1 на данный момент).

Вот основные рекомендации.

Детализация контекста и окружающей среды: Улучшайте подсказки с помощью хорошо подобранных фоновых элементов и атмосферных деталей для создания многослойных изображений.
Сенсорные и эмоциональные характеристики: Используйте сенсорные ощущения и эмоциональные характеристики, чтобы придать изображениям, созданным искусственным интеллектом, настроение и чувства.
Синестезия: Экспериментируйте с синестезией, чтобы сочетать сенсорные детали и создавать мультисенсорные ощущения погружения в искусство искусственного интеллекта.
Динамические элементы и действия: Добавляйте движения и действия в подсказки, чтобы изображения казались более живыми и привлекательными.
Использование модификаторов: Манипулируйте модификаторами, чтобы изменить стиль, тональность и художественный подход, улучшая интерпретацию и исполнение ИИ.
Сложный синтаксис: Используйте сложные предложения для объединения нескольких элементов и инструкций, обеспечивая логическую организацию деталей.
Расстановка приоритетов деталей: упорядочивайте визуальные детали в порядке убывания важности, чтобы сохранить основное видение, если сложность заставляет ИИ опускать некоторые элементы.
Продвинутые методы: Продолжайте экспериментировать и осваивать методы написания подсказок для создания более сложных и тонких иллюстраций, созданных с помощью искусственного интеллекта.

Что дальше?


Существуют различные стили написания подсказок, которые дают несколько разные результаты, отражая разнообразие подходов и креативности ИИ-художников. Один из лучших способов улучшить свои навыки написания подсказок - это наблюдать за подсказками и, в некоторых случаях, заимствовать их у продвинутых ИИ-художников. В Deep Dream Generator (DDG) графические подсказки доступны в открытом доступе, что позволяет вам реализовать множество творческих идей. Кнопка “Попробовать” - особенно полезная функция, поскольку она генерирует изображение на основе подсказки другого художника и сохраняет подсказку с вашим новым изображением. Это позволяет легко экспериментировать с различными стилями и техниками, помогая вам совершенствовать свои навыки и расширять свой художественный инструментарий.

Искусственный интеллект в области искусства дает нам возможность управлять многими художественными стилями, и он способен на большее, чем было доказано ранее. Он полон сюрпризов. Весь художественный потенциал искусственного интеллекта должен быть раскрыт благодаря неустанным изобретениям и экспериментам. Создавая совершенно новые художественные стили, вы можете выделиться и внести свой вклад в постоянно расширяющийся спектр возможностей искусственного интеллекта в искусстве. Такая согласованность позволяет художникам совершенствовать свои творческие результаты, расширяя границы того, чего может достичь искусство, созданное с помощью искусственного интеллекта.

P.S. Современные языковые модели развиваются стремительно, еще год назад не было возможности автоматически улучшить собственный промпт. Сейчас волшебная палочка - позволяет усложнить описание, наполнить его деталями для получения более красивого "бьютизированного" результата.

P.P.S. Забавно, но сегодня именно тот день, когда сервис Кандинский работает с ощутимыми задержками. 30 мая 2024.