Найти тему
Будо Глобал

Искусственный интеллект в сфере боевых искусств (2 из 3)

Теперь же давайте поговорим о нейросети «которая рисует», и прежде всего отметим, что здесь всё не столь мрачно. Во всяком случае, абсолютно не апокалиптично.

Перед тем, как мы к ней присту­пим, я призываю вас всех уяснить и по возможности воспринять мою позицию по дан­ному вопросу. Суть её в том, что к искусственному интеллекту нужно относится как к сугубо рабочему инструменту, и никак не более того!

Вот представьте, что у вас есть «волшебный карандаш», который умеет сам рисовать. Который можно положить на бумагу и сказать «а нарисуй-ка мне синюю вазу с красными цветами!», и он сам заскользит грифелем по бумажному листу, безупречно-правильно вырисовывая для вас эту вазу с торчащим из неё букетом, при этом чудесным образом изменяя свой цвет в зависимости от того, какой именно элемент он в данный момент отрисовывает.

Представили? А теперь вообразите, что вместо листа у вас монитор компьютера, вместо карандаша нейросеть, и вы не произносите команды вслух, а буднично набираете их на клавиатуре. И по вашей команде нейросеть начинает генерировать заказанное вами изображение, каким-то магическим образом складывая именно его из сотен тысяч хаотично разбросанных цветных элементов, метко именуемых нейросетевым «шумом» (англ. — seed). Это и есть рабочая схема взаимодействия с нейросетью «которая рисует». Главное, чтобы выше «карандашного уровня» вы её для себя не поднимали. Никакого диалога на равных, одни лишь команды с вашей стороны, называемые «промтами» (англ. — promt) и отдаваемые, к сожалению, не на нашем с вами языке (хотя и тут существуют варианты).

И уж так устроено нейросетевое общение, что это для нас английские слова являются «промтами» (в данном случае переводится на русский язык как «подсказка»), в то время как для самой нейросети они воспринимаются некими «токенами», позволяющими ей «понять» то, что вы хотите увидеть и как должно это в конечном итоге выглядеть.

Естественно, что различных «рисовальных» нейросетей существует превеликое множество, и все они не жалея сил борются за своё место под солнцем. На сегодняшний день в лидерах этой борьбы находятся всего лишь две сети — Миджорни (англ. — Midjourney) и Стэйбл Диффьюжн (англ. — Stable Diffusion). Последняя называется на сленге русскоязычного нейросодружества просто как «Стэйбл» или «СД», и поскольку для меня аббревиатура «СД» ассоциируется с чем-то нехорошим, то именно «Стейблом» мы данную нейросеть в дальнейшем и будем именовать.

Пока несколько слов про Мид­жорни. Это, конечно же, самый настоящий гигант и лидер нейросетевой индустрии. Но! Во-первых, он платный, чего мы все ну уж очень не любим, а во-вторых (хотя и первого достаточно) вся его работа построена исключительно на промтах, без задействования интерфейса программного настраивания, которое позволяло бы само по себе регулировать процесс генерации.

Если кратко, то для использования Мид­жорни нужно иметь оплаченный аккаунт, обязательны приличные знания английского языка, а главное — при этом не нужно иметь чёткого задания на то, что именно собираешься нарисовать, потому как выполнить его точно, при отсутствии тонкого аппарата настроек, всё равно невозможно, вследствие чего полученный результат всегда будет как бы созданным «по мотивам».

Но рисует Миджорни очень красиво, если не прекрасно. Вдобавок, оно тут же по вашему желанию улучшает и увеличивает сгенерированные изображения, и делает это всё «там, у себя», на своих ресурсах, без какого-либо задействования вашего компьютера, поэтому если вы работаете на Миджорни, то иметь мощную видеокарту вам совсем необязательно (что тоже немаловажно!).

Теперь позвольте несколько слов об англоязычности. Понимаю, что многие читатели сейчас искренне недоумевают, от чего это я столь сильно заостряю на столь пустяшном вопросе внимание, поскольку существуют различные «гугл-яндекс-бинг» и прочие переводчики, успешно снимающие все языковые проблемы, а некоторые из них (кстати, созданные на основе нейросетей) даже видео умудряются переводить, делая это в режиме реального времени.

Да. Существуют! К примеру, я использую «Дипл» (англ. — Deepl), потому как в нашей нейросреде он считается наиболее продвинутым. И пользуюсь им несмотря на то, что в моей личной нейросети установлено расширение, позволяющее писать на русском языке. Всё так, но дело в том, что работа нейросети (читай, восприятие ею промтов как токенов) построена на нюансах английского языка, а потому машинный перевод порой даёт нам совершенно не те результаты, которые мы ожидали. При этом зачастую понять, отчего именно происходят сбои, русскоязычным пользователям машинного перевода никак невозможно.

Потому для мастера нейросети типа Миджорни крайне желательно очень хорошее владение аглицким наречием, доведённое не просто до широкого лексического понимания, а до тонкого чувствования языка. Да и не только для неё одной это важно — по большому счёту и для всех прочих нейросетей. Просто в некоторых других сетях отсутствие данного лингвистического чувствования при написании промтов, вследствие технического устройства самой нейросети, вполне можно компенсировать «аппаратно» с помощью встроенных в неё инструментов (что мы успешно и делаем).

Но об этом чуть позже, ибо вот на этом самом моменте читатель вправе спросить: «А что? А где же тут нашенская родимая нейросеть, не требующая знания языка англосаксов?». Отвечаю: такая нейросеть есть! Называется она «Кандинский» (это такой художник), является детищем «Сбера» и действительно работает на нашем, родном языке. Вернее, как сказано в её аннотации «она, в том числе, работает и на русском». И это очень хорошо! К сожалению, пока (но лишь пока!) это её единственное достоинство, поскольку всё остальное в работе «Кандинского» порождает вопросы и вызывает у отечественных нейропрофессионалов некоторое недоумение. Но! Будем считать, что это как раз тот случай, когда «лиха беда начало», и потому у нашего «Кандинского» всё хорошее ещё впереди. А пока рассвет «Кандинского» ещё не настал, большинство любителей и профессионалов в сфере русскоязычного нейроискусства вынуждены работать на «Стэйбл Диффьюжн», которую мы дальше (напомним) будем именовать Стэйблом.

Рабочая панель «Стэйбл Диффьюжн»
Рабочая панель «Стэйбл Диффьюжн»

А всё потому, что (объективно говоря) у Стэйбла имеется масса неоспоримых достоинств. Во-первых, он абсолютно бесплатен (всё как мы любим!), а во-вторых (и это главное!) он представляет собой самый настоящий многофункциональный комбайн. Настолько многофункциональный, что овладение его настройками (что для технически грамотного человека вполне даже осуществимо) успешно компенсирует отсутствие у данного пользователя фундаментальных знаний английского языка, позволяя им оставаться на уровне машинного перевода, но при этом используя различные технические ухищрения всё равно успешно добиваться воплощения в жизнь всех своих нейросетевых замыслов.

Поясняю. Можно самостоятельно написать промт (и при этом орфографически не ошибиться), в котором будут фигурировать различные токены, включающие в себя всё — от типа генерируемой композиции с указанием степени детализации создаваемого объекта и до желаемого стиля художественного искусства (к примеру, в стиле Айвазовского). А можно для создания этого же изображения «аппаратно» задействовать специально встроенный в нейросеть скрипт, позволяющий указать эти и ещё до десятка других важнейших параметров, при этом провести их тонкую настройку в сторону увеличения или уменьшения, тем самым сбалансировав общую композицию в художественном отношении.

В Стэйбле это вполне возможно! Вдобавок, в нём существует техническая возможность и вовсе не заморачиваться со всей этой англосакской лингвистикой, а взять со стороны приглянувшееся изображение, поместить его в специальный аналитический раздел, и запустив анализ через пару минут получить вполне даже грамотный промт, адекватно описывающий то, что вы хотели бы самостоятельно сгенерировать. Остальное — дело техники, в результате которой вы получите, пусть и не на сто процентов совпадающее с исходным (а так подозреваю, что вам это и не надо), а добросовестно созданное «по его мотивам», и при этом достаточно качественное изображение. Впрочем, давайте перейдём к практике.

Окончание следует...

Владимир Ерашов
ст. Старочеркасская, Россия