Повод для написания этой статьи возник в результате работы над предыдущим рассказом о гениальном скрипаче, попавшим во время концерта в затруднительное положение из-за проблем с желудком и нашедшем из него блестящий выход.
Текст рассказа был напечатан словно под диктовку кого то свыше, как говорится, по вдохновению. Но мне хотелось добавить к нему картинку, изображающую героя рассказа в момент кульминации. Следуя моде, я с этим обратился к ИИ, а именно к нейросети Kandinsky 3.1, как раз и предназначенной для генерации изображений.
Текст задания сети для создания картинки, или, как это принято называть, промпт, был достаточно прост и лаконичен:
Пожилой скрипач стоящий на сцене с опущенными руками, в правой из
которых смычок. Скрипка прижата к левому плечу подбородком.
Первый вариант представленный сетью действительно изображал пожилого скрипача, что следовало хотя бы из того, что к его левому плечу была прижата скрипка, правда, какая-то сдвоенная, если присмотреться. Но руки - вовсе не опущены, как я просил, а вполне действуют - левая держит гриф скрипки, а в правой вроде бы смычка нет, но зато этот невидимый в начале смычок становится видимым причем раздваивается и одним концом протыкает скрипку, а другим пытается достать до ее струн, но не достает.
Я понял, что недостаточно акцентировал нужные мне детали и следующий промпт записал так:
Пожилой скрипач стоит на сцене , но не играет. Скрипка прижата к левому
плечу подбородком. Руки опущены вниз вдоль тела по бокам. В правой руке
скрипач держит опущенный вниз смычок.
Вторая картинка от Kandinsky бесспорно опять изображала пожилого скрипача, хотя, то, что он прижимал к левому плечу скрипкой назвать трудно. И опять множество смычков, которые никак не стыкуются с его правой рукой. А главное, руки не опущены, а якобы играют, а скорее делают вид.
Как бы я не усиливал акцент на обеих опущенных руках в промпте, добиться от нейросети этого мне не удалось. В результате я истратил месячный лимит генераций, но на всех картинках скрипач гордо держал руки выше пояса. Были различные шедевры, даже с двумя скрипками у одного артиста, который, кстати еще и не опрятно выглядел. Я, к сожалению сохранил только экземпляры с приличным содержанием, не предвидя свой интерес к этой теме.
Потерпев фиаско у Kandinsky я обратился к Алисе, нейросети, которая, как анонсируется в версии AI, тоже работает с картинками и, в частности, умеет их генерировать. Сразу же скажу, что с Алисой работать удобней, поскольку она поддерживает диалог, т.е. можно делать замечания по результатам ее деятельности, правда это, как правило, не вызывает корректировку картинки, а порождает генерацию новой.
Итак на промпт, аналогичный приведенным выше Алиса ответила картинкой, на которой скрипач играл сидя. Я сообщил "художнице", что артист должен стоять с опущенными руками, а не играть, но что получил следующее фото.
На замечание, что на концерте обычно имеет место костюм, был добавлен пиджак и, видимо от щедрости - плащ, повешенный на руку. По моей просьбе последний был удален, но смычка музыканту так и не доверили. Короче, и здесь не удалось опустить руки скрипачу, хотя, надо признать таких ляпов, как Kandinsky, Алиса не допускала. Видимо потому, что в отличие от последнего не пыталась преобразовывать готовые фотографии, явно скачанные из интернета обеими нейросетями.
Закончился наш диалог с Алисой тем, что она вернулась к более привычному виду деятельности - вместо очередной картинки представила свой вариант промпта, но со всякими подробностями, типа куда и как смотрит скрипач во время перерыва в игре, или как отражают лучи софитов пуговицы на его пиджаке.
Этот текст она предложила показать Kandinsky, заявив что уж по нему-то он неминуемо создаст нужный мне шедевр. Сразу же скажу, что тот это изделие коллеги забраковал, утверждая, что картинка, созданная по этому запросу противоречит правилам его функционирования.
Придя к выводу, что обе нейросети действуют по тому же алгоритму, что и я, грешный, т.е. подбирали нужные фото из интернета и, в случае Kandinsky, пытались его модифицировать, приближая к требованию заказчика. Элемент ИИ тут заключается в том, что нейросеть понимает содержание картинки, и умеет его сравнить со смысловым значением промпта.
На беду, мое задание оказалось трудно выполнимым: не нашлось фото скрипача с обеими опущенными руками. Тем не менее я попытался решить его сам, без помощи ИИ - подобрав картинку, где положение рук артиста наименее заметно, Фотошопом удалил кисть левой руки с грифа скрипки и получил необходимый эффект.
Удача вселила в меня законную гордость за все человечество - в некоторых отраслях мы-люди пока незаменимы!