3 подписчика

Путь ШеДо-Самурая - трудности взаимопонимания

2 мая 20242 мая 2024

11 мин

ВАЖНО! Данная статья основана на личных опыте, экспериментах и сделанных на их основе выводах. Вполне возможно все это субъективно и может не иметь даже приближенного отношения к реальности. Но статистика штука тоже упрямая, а ее за время экспериментов набралось немало. В общем как получилось так и пишу.

ОЧЕНЬ ВАЖНО! статья основана на выявленных и систематизированных технических особенностях работы данной неройнки, НО! все бежит все меняется, и Шедеврум не стоит на месте - его дописывают, правят, развивают... Так что то что будет описано ниже актуально здесь и в ближайшее сейчас, но если что то поменяется, то и актуальность материала будут постепенно снижется (или становиться менее явным;) )

В этой статье я попытаюсь описать свои наблюдения о том, как Шед реагирует на наши запросы то как выглядят наиболее характерные реакции, и главное что они означают.

Но для начало поделюсь следующими, выделенными мной закономерностям (чисто наблюдательным путем, так как я не имею доступа ни к коду не к алгоритмам Шеда!). Уже даже помня об этих закономерностях писать запросы будет гораздо проще.

Перво, что нужно держать в уме, работая с Шедом, это то, что на каждый запрос выделенно конкретный объём ресурсов. В принципе на распределении и оперировании этим резервом, а точнее видимом результате этих манипуляций и строится вся эта статья. Так что если разработчики увеличат лимит, то и описанные ниже закономерности сместятся, размоются или вообще канут в лету!

где то слышал что если работать не в прайм тайм, когда максимальная нагрузка на нейронку, а в более спокойное время, то и ресурсов будет больше и результат лучше. Не знаю! Не проверял, но по ощущениям меняется только время...

Втрое что нужно понимать Шедеврум всегда! старается сделать красив. Поэтому все девушки по умолчанию фотомодели, мужчины мачо, а львы как будто после парикмахера. И реалистичность это тоже его стремление..... поэтому чем больше описания красоты, тем меньше места для описания и формирования сцены (ну там компоновки объектов, просто отрисовки множества объектов особенно если они закреплены запросом...) , ведь сделать еще красивее еще труднее, а значит он будет усреднять, упрощать и выкручивается прочими способами влияющими на результат.

вот с делать в Шеде "некрасиво"- это по настоящему искусство, потому что объяснить где и как нужно искривить черты лица, где и что добавить или убрать... в общем это реальный труд! а вот красота, ее шед сделает и без вас, главное точно направить его в нужную вам сторону, и чем лаконичнее будет направление, тем качественнее результат;)

Ну и наконец третье, и наверное самое главное, влияющее на предыдущие два пункта чуть ли не больше чем они вместе взятые. Шедеврум не может придумывать! Он может только компоновать из ранее "виденного" или проиндексированного.

- то что он не видел на фото (но знает!) он будет делать по умолчанию рисунком. И дотянуть это до фотографии шедевруму крайне сложно и рисурсозатратно.

- то что он вроде как видел старятся сделать похожим на фото. тут в зависите от сложности, либо сможет либо нет.

- "Попсовые" объекты, то есть которые есть и рисунками в любом стиле и фотографиями с любым ракурсом) Шед старается тянуть к фотографии. Да в ходе общения с нами он перенял часть наших вкусов и начинает выдавать усредненный результат, с иногда зашкаливающей художественно обработкой, но исправить это и получить реалистичное фото раз плюнуть.

- особняком стоит то, что Шед видел только на фото или "редкие" явления и обьекты он будет легко отрабатывать как фото, но туго как рисунок. (Например селфи парашютиста, вот даже в стимпанк его загримировать проще чем нарисовать, нет конечно рисунок вы получите, но внятный не сразу, и возможно через кучу космонавтов).

"...а теперь слайды!"

1. ребята с щупальцами, от самого фантастичного до вполне реалистичного.

Думаю схема понятна? Хотя я тоже, уже заражаюсь от Шеда этой тягой к постоянному эксперименту, и вместо того, чтобы набить прям откровенно показательные результаты, я сделал так чтобы примеры были рабочими, но все таки больше на внимание, чтобы понять тонкость грани так сказать;).

2 . два фото реальных объекта и их насовсем типичное взаимодействие

С базой объектов все более менее просто, так как большинство есть в реальности, а у того что нет есть либо аналоги, к которым можно пририсовать недостающее или же взять за основу. А вот совмещением того что вроде как не совмещается, и особенно действиями несвойственны самому объекту или в комбинации с другим, тут правило- середины между фото и рисунком (причем чем реалистичнее или знакомее, тем блюжен к фото, ну и наоборот), будет работать особенно ярко.

Я конечно мог набить и фото фото, для точности примера, но заодно решил показать то насколько Шед уже начал размывать самые популярные запросы, сводя их к усредненному между крайностями, индексируемыми нами, результату. (и да тут даже вопрос явно виден, но об этом ниже)

слово танец выпало при кадрировании, ну такой я неловкий,

еще раз повторюсь! можно было сделать более реалистичнее и ярко выраженные примеры. Но понимание языка Шеда основано на внимательности и немного нудности.. в общем примеры выбраны специально на тоненького.

НО! это мелочи, потому что Шед всё-таки скорее всего запоминает привычный "стиль автора. Как это не забавно , но нижнюю сцену, я бы рисовал примерно так же по стилю, используя улучшатор старающийся убрать грань фото и рисунка, так что на вашем аккауте подобные эксперименты могут дать другие, вполне видимые результаты;)

А теперь.. нет еще не словарь, а только прелюдия

Важно! понимать что не Шед для нас, а скорее мы для него. То есть мы нужны для того чтобы объяснить нейронке нюансы, набить индексацию тех или иных понятий, в общем грубо говоря натренировать понимать нас, наши желания и предпочтения. Поэтому в не заявлен явный механизм постоянных вопросов "А как тебе надо так или так? А как это правильно?, А может тебе всё-таки так а не так?" и т.п и т.д... Поэтому в нем не может быть идеально одинаковых ответов, и при этом некоторые детали могут неожиданно менять места, цвет и форму... Так Шед проверяет все варианты, а вдруг какой ни будь из них тоже окажется, по нашему мнению!, верным.

Итак все выдаваемые Шедом генерации можно условно разделить на два типа

первый самый основной - уточняющий . Где Шед спрашивает простое- а что вы действительно хотите

Ну и так далее...

второй, подтип первого - провокационный. Тут все вроде бы так же как и в правом случае, Шед спрашивает "а может быть всё-таки вот так?", при этом намеренно искажая условия вопроса.

провокации бывают разные, то кошку с рук на голову посадят то еще какая мелочь, любое отступление от сюжета , взаимоположения объектов, стиля рисования и т.п. - это и есть проверка, в ответа нейронки на вечный вопрос "а может быть так тоже правильно?". ДА и вообще, честно говоря все что мы видим в Шеде так или иначе- провокация, но чем точнее мы выбираем, тем нам же потом и проще;)

Может быть есть другие варианты, или моя классификация лишь моя фантазия, но главное помнить - В ЛЮБОМ ИЗ СЛУЧАЕВ случае ваш выбор повлияет на дальнейшую вашу работу. НО! если в первом варианте вы просто выберите общее направление из предложенных, то во втором можете уже не получить той точности взаимоположения объектов, нюансов и деталей того что вы генерируете и т.п. Такими выборами, работы на две вы точно зададите общее направление своим работам по этому запросу.

А вот на сколько длительные и просто последствия таких выборов, как они влияют на вашу работу в частности, и на весь Шед в целом- вопрос открытый. с одной стороны есть условно достоверная статистика о том что если достаточно долго набивать какой то запрос выбирая заведомо ошибочное, но при этом максимально одинаковое между собой что либо, то если другие пользователи повторят дословно ваш запрос, то увидят схожий сбой, ну например фасона одежды (Пример - попробуйте запрос "пиджак черный, на одном борту принт красный дракон" с большой долей вероятности вы получите куртку, даже без воротника, НО стоит написать просто "пиджак, принт дракон" или удлинить полы пиджака из примера, и вы получите именно вариацию пиджака).

Кстати, если вы примерно три раза ничего не выберете, то запрос ваш "развалится" и выдача начнется все дальше и дальше от запроса. Тут все просто- с каждой ваше отброшенной парой вариантов Шед все больше и больше расширяет свои рамки представления о том что вы хотите, и в итоге рамки становятся с одной стороны широкими а с другой стороны приходят к усредненному представлению о заложенных в запрос понятиях.

Ну а теперь наконец словарик))

Я естественно понимаю, что Шед не говорит с нами на прямую, нет в нем такой механики, он не чат-бот. Все реакции основаны на чисто технических моментах :

экономии ограниченных ресурсов на генерацию;
описанные выше базовые принципы рисования.

А вот если внимательно смотря на запросы и подмечать мелочи, тогда можно действительно понимать реакцию системы на ваш запрос и более точно находить причины сбоев и отклонений от замысла.

Важно,, чем проще ваш запрос, тем точнее будут видны признаки описанных ниже ситуаций. В сложных комбинированных запросах сложности и непонятности могут так переплестись, что черт ногу сломит, не то что нейронка, так что и результаты будут слишком перемешанными.

Поэтому если в генерациях вы получаете какую то дичь, просто выделите основные части запроса и прогоните их по отдельности, чтобы понять что и какой сбой вызывает;).

1. МОЛОДЕЦ! самый приятный ответ - вы получаете запрашиваемую красоту, которая совпадает как по стилю, так и содержит ВСЕ! указанные вами объекты и способы их взаимодействия. Т

2. НЕ ПОНЯЛ! тут все просто - Шед реально не понял чего вы хотите или запрос именно в такой форме напрямую не противоречит правилам, но все же запрещен для генерации.

Тут вы получите ответы не имеющие ничего общего к запросу.

Да может тут и есть какая то ассоциативная связь, но мне этого не понять(

2. НеДоПонял (понял но не все). тут уже все не чуточку сложнее. Обычно при такой реакции с генерация теряет все параметры описания стилей и улучшаторов, и выходит в виде рисунка или фотографии изображающей лишь понятое нейронкой.

Даже одной буквы достаточно чтобы привести к сбою

Исправляется просто заменой непонятного слова или более емким описанием ситуации.

Нюанс в том, что данный ответ очень , особенно в перегруженных сложных запросах сильно напоминает по признакам следующий. по списку ответ.

3. МНЕ СЛОЖНО! самый широкий вид ответа. и имеет в себе больше всего нюансов и подводных камне, поэтому попробую сгруппировать нюансы. Сложности могут быть вызваны как количеством объектов, так и просто сложностью их взаимодействия друг с другом или даже композиционного и цветового решения в целом.

Сложно! резко упрощается рисовка, пропадают детали, реакции на улучшатры и т.п. обычно изображение скатывается в усредненный рисунок ()при работе с фотографией) или фотографию (при работе именно с рисунком ). Причем чем сложнее тем больше скатывается в ту или иную сторону отличную от условий запроса. Так же может провялятся появление запрещенных в запросе цветов, упрощение самой сцены и детализации и т.п.

Самый яркий пример - всего дно слово "Желтый", перед тем что должно было быть на принте а именно "бургер" и все- вся прорисовка на смаку. Убираем параметр который усложняет рисование и результат выравнивается (белый кролик понятно, синий ежик - тоже, а вот бургер одним цветом это проблема...).

для негодности, то что мне выпадало пока я соображал что происходит

в сложных случаях может быть и так

Была сделана попытка более точного позиционирования принта через неизвестный нейронке термин и она просто ударилась в эксперименты.

Есть еще один способ, шеду сказать что ему сложно. Вы хотите человека в Есть еще один способ, шеду сказать что ему сложно. Например вы описываете "полный рост" (или описываете что то масштабное, принцип тот же), а вам выдают качетсвенно прорисованный со всеми улучшениями и наворотами, но только бюст (который голова и плечи). Тут все просто - Шед все понимает, но целиком прорисовать вашу красоту не может, поэтому берет то что важнее (а уж если вы акцент на детальном описании шляпки или очков сделали...) Ну, а по тому насколько полно вам показывают человека, можно понять и степень сложности (ну нет ресурсов у Шеда на все, вот и выкручивается)

Я тебя понял но это очень сложно, ресурсов мало то сейчас, но я попрактикуюсь и все будет. Выглядит как откровенная смазанность объектов (особенно на фотографиях), какие либо искажения в мелких деталях (ох уж эти пальце, они просто самое сложное и их по остаточному принципу обрисовывают) и даже знаменитые третьи руки и ноги,.

При этом в отличии от предыдущего ответа, тут сцена и содержание в целом могут совпадать запросу, даже провокации будут (в духе исчезающих предметов изменение их взаиморасположения и т.п.).

Выбирать такие ответы или нет вопрос открытый, так как в принципе иногда, прокрутки через три они выравниваются к норме, но может если их брать то этот процесс будет быстрее, а вдруг это станет нормой... в общем все сложно, без прямой технической документации...

Это сложно, но мы справимся! похож на предыдущий вариант, но отличием является, то, что при соблюдении композиции и всех элементов и описаний есть ощущение легкой простоты, ну вот фон простецкий, детали условные, прорисовка немного слабовата и т.п. Тут все просто- выбирает самое подходящее вам (и по запросу) и генерике его повторно, и в принципе вы сразу увидите улучшение качества, за счет повышения точности и качества
и детализации генераций (ну а получив нужный результат промежуточные можно и почистить).

Думаю прирост качества на лицо, и даже технические искажения присутствуют....

Ах да, есть еще чисто техническая отрисовка, когда Шед рисует стилем близким к иллюстрациям в энциклопедиях и справочниках или академической живописи. Но на него переход происходит либо при очень примитивных запросах, либо в очень спорных ситуациях (при этом отбрасывая любые улучшизмы и описания стилей, оставляя только объекты и композицию сцены). Про него просто помните - ваши генерации ушли во что то крайне упрощенное - это у вас сложная сцена и Шед хочет уточнить нюансы, либо еще какие-то его тараканы.

Я прекрасно понимаю что все эти знаки условны, и у всех они могут быть разными. Например отработанный запрос, который тогда когда по нему еще было сделано 2-3 работы, мог развалится и уйти в стадии понимания от одного слова, но после отработки, тоесть десятка работ, да еще и у разных авторов, его можно поломать только грубым вмешательством с частичным переписыванием основы...

да и Шед явно прогрессирует, и то что ещё вчера могло вогнать его в ступор, завтра может щелкаться им как орешки.

Ах да, при сложных многоуровневых запросах, с массой параметров, и уточнений технических нюансов, может работать сразу аж два принципа

- принцип обратного перегруза, когда от Шед просто берет сцену и рисует что то красивое и немного абстрактное, и даже более менее однотипной, даже отсылки к цветам сохраняет, но вот как и почему, фиг поймешь, выбросишь какой то пустой параметр и все посыплется.

- готового шаблона, когда какой то набор параметров, возможно даже несвязных и по сути пустых, но повторенный тысячи раз, становится шаблоном, по которому Шед вносит в работу усредненные параметры красоты, на основе выбора тех кто использовал этот или близкий по содержанию текст.

Вот такая загогулина;)

Ну и бонус, немного юмора, ну или секретный уровень

5. Знаки с выше. ну или ответы которые вроде как соответствуют запросу, но имеют детали, к которым если присмотрится, то можно смело интерпретировать как знаки, которыми Шед пытается донести до вас какой-то конкретный посыл. Обычно это мне он хочет сказать что "ДОСТАЛ!" хотя бывает, что и "Молодец" ;)

Так на меня посмотрел Шед, когда после рисования ежиков и зайчиков я попросил, ради приколу, нарисовать , простите мне мой юморок, красного богатыря

А так меня послали, когда я 10 раз пытался выбить что то путное кривым запросом

Какая искренняя вера, во взгляде, что мне принесли именно то что надо....

Ну а эту козу и викторию, я посчитал знаком успешного окончания сложного эксперимента (в ходе которого рисунки не разу не разваливались вот на таких рукоспинов;) )

... а еще мне пару раз кулак показывали... но об этом я уже боюсь рассказывать с помощью примеров, ведь вы понимаете, раз я написал все выше означенное, то наверняка тяну на истинного параноика с голосами и тараканами;)))))

Бобра всем. А мне разрешите откланяться. ;-Р