94 подписчика

ИИ тупит? Исправляем с помощью негативных промтов

4 марта4 мар

6 мин

Генерация картинок с помощью нейросетей - это, конечно, что-то вроде магии. Но согласитесь, иногда эта магия дает сбой. И вместо шедевра получается ну что-то очень странное. Девушка с тремя руками, кот с пятью лапами или пейзаж, где небо сливается с асфальтом... Знакомая ситуация? А может, вы просили нарисовать простого котика на подоконнике, а искусственный интеллект добавил ему на спину крылья летучей мыши и одел в рыцарские доспехи? Просишь нейросеть нарисовать одно, а она упрямо лепит что-то свое, лишнее. Или, что еще хуже, вообще все понимает не так. Если вы раньше считали, что создание картинок через искусственный интеллект - это удел избранных технарей, которые сутками пишут сложный программный код, то можете смело распрощаться со своими стереотипами. Все гораздо проще и доступнее. Но чтобы взять этот хаотичный процесс под свой строгий контроль, вам понадобится один очень мощный инструмент. И нет, это не знание высшей математики или статистики. Давайте представим, что мы заказыв

Оглавление

В чём проблема?
Зачем вообще нейросети что-то запрещать?
Как это применять на практике?

В чём проблема?

Если вы раньше считали, что создание картинок через искусственный интеллект - это удел избранных технарей, которые сутками пишут сложный программный код, то можете смело распрощаться со своими стереотипами. Все гораздо проще и доступнее. Но чтобы взять этот хаотичный процесс под свой строгий контроль, вам понадобится один очень мощный инструмент. И нет, это не знание высшей математики или статистики.

Давайте представим, что мы заказываем торт у кондитера. Наш основной запрос (на языке нейросетей он называется позитивный промпт) звучит предельно просто: "Шоколадный торт с клубникой". Все кристально понятно, правда? Но чтобы кондитер вдруг по своему усмотрению не накидал туда грецких орехов или, скажем, взбитых сливок, которые мы терпеть не можем, мы заранее даем ему четкий стоп-лист.

Так вот, в мире нейросетей этот самый стоп-лист называется негативным промптом. Это просто инструкция, чего на нашей финальной картинке быть ни в коем случае не должно.

Зачем вообще нейросети что-то запрещать?

Казалось бы, ИИ - умная штука, зачем ему эти ограничения? Дело вот в чем: нейросети учились рисовать на миллиардах картинок из интернета. А интернет - это, мягко говоря, не самое чистое место. Люди десятилетиями загружали в сеть фотографии самого разного качества. Там полно визуального мусора: водяные знаки фотобанков, какие-то размытые любительские фото, жуткие артефакты сжатия, кривые рисунки... В общем, чего там только нет! ИИ впитывал все это как губка, не разбираясь, где хорошо, а где плохо.

И вот негативные промпты как раз и работают как такой волшебный ластик и очень строгий фильтр качества. Они отсекают весь этот накопленный хлам и помогают получить чистый, сочный результат.

Как это применять на практике?

Мир меняется, и вот три главных сценария для работы:

Убираем все лишнее.Самый простой и очевидный пример для новичков. Сгенерировали мы, скажем, атмосферную старинную улочку где-нибудь в Индии, чтобы прочувствовать дух эпохи. А машина зачем-то припарковала там современный блестящий автомобиль. Ну не вписывается он туда, рушит всю композицию! Не проблема. Достаточно добавить одно слово "машины" в наш стоп-лист, и все - улица тут же становится пешеходной. Это же невероятно удобно.
Объясняем абстрактное от противного.А вот это уже поинтереснее. Иногда проще всего действовать от обратного. Скажем, алгоритмам бывает очень сложно понять абстрактные понятия вроде "штиль" или "спокойствие". Ну как это нарисовать, если это просто ощущение? Зато если в негативном промпте четко указать "без шторма, без цунами, без плохой погоды", программа отлично поймет, чего именно нужно избегать. В результате мы получим то самое идеальное спокойное море.
Контролируем художественный стиль.Точно так же можно легко управлять стилем. Хотим, например, гиперреалистичный портрет, прямо как настоящую студийную фотографию. Чтобы нейросеть не скатилась случайно в рисованные мультики или аниме, мы ей это просто-напросто запрещаем. Добавляем в стоп-лист: "аниме, 3D-рендер, иллюстрация, мультфильм". И это заставит ее, так сказать, мыслить как профессиональный фотограф с дорогой камерой, а не как свободный художник-аниматор.

Как это все работает под капотом?

Давайте попробуем заглянуть в творческую мастерскую искусственного интеллекта и посмотрим, как он, по сути, лепит готовое изображение из ничего. Все начинается с пустого холста, который плотно покрыт таким хаотичным цифровым шумом. Очень похоже на рябь и помехи в старом пузатом телевизоре без антенны.

Позитивный промпт - это основная команда: "На каждом шаге делай этот шум чуточку больше похожим на пушистого кота". А негативный стоп-лист в это время как бы непрерывно шепчет на ухо: "И заодно внимательно следи, чтобы он становился все меньше и меньше похож на собаку". То есть это такая постоянная корректировка курса, чтобы не сбиться с верного пути в процессе работы.

И что самое крутое - этим процессом можно управлять! Если система упрямится и все равно рисует что-то не то, на нее можно, так сказать, прикрикнуть. Обычное слово - это просто команда. Но если заключить его в круглые скобки, нейросеть воспримет его намного острее. А тройные скобки - это уже почти крик, который выкручивает громкость этого запрета на абсолютный максимум.

Но, конечно же, даже с такими мощными инструментами технологии не идеальны.

Иногда искусственный интеллект начинает как-то уж очень творчески подходить к установленным правилам. И тогда мы можем наблюдать настоящие сбои в матрице. Ученые исследователи обнаружили два очень забавных эффекта, о которых стоит знать каждому.

Парадокс розового слона

Давайте проведем небольшой мысленный эксперимент. Вот прямо сейчас попробуйте НЕ думать о розовом слоне. Ну как, получилось? Скорее всего, нет. Именно этот яркий образ самым первым и всплыл в вашей голове. Так вот, с нейросетями происходит примерно то же самое! Если на самом-самом раннем этапе, когда на картинке еще сплошной цифровой шум, дать очень сильную команду (ну, скажем, "без очков"), то вся математика ИИ может так сильно сфокусироваться на этом понятии, что он парадоксальным образом возьмет и нарисует именно очки. То есть слишком ранний и слишком жесткий запрет иногда дает совершенно обратный эффект.

Эффект задержки

Он работает совсем иначе. Представьте, машина рисует человеческое лицо. Она не может запретить очки с самого начала, потому что она просто еще не знает, где они вообще должны быть. Ей нужно сперва детально построить само лицо, определить, где будут находиться глаза, и только потом как бы просыпается наш фильтр и говорит: "Ага, вот здесь могли бы быть очки, а их быть не должно!". То есть ИИ сначала создает контекст и только потом убирает из него лишний объект. Запрет срабатывает с небольшим опазданием.

Так как же всем этим добром пользоваться максимально эффективно?

На самом деле, существует одно золотое правило, которое стоит запомнить навсегда. И оно очень простое: меньше значит лучше.

Вот ключевой момент: ваш стоп-лист ни в коем случае не должен превращаться в сочинение на вольную тему. Если написать туда сотни слов, нейросеть просто запутается и вобще не поймет, что от нее хотят. Идеальное количество - это где-то от пяти до десяти самых точных, самых важных стоп-слов. Здесь хирургическая точность всегда важнее бездумного количества.

Как вам такая механика общения с нейросетями? Знали ли вы, что им можно не только приказывать, но и строго запрещать?

Ваша подписка и лайк сейчас - это не просто цифра, а реальный вклад в развитие канала. Если вам было полезно, подпишитесь, чтобы мои статьи чаще мелькали у вас в ленте.

И обязательно пишите в коментарии, какие странные артефакты или нелепые ошибки выдавали вам алгоритмы при попытке нарисовать что-то простое!