Читая материалы на моём канале, пожалуйста, обращайте внимание на дату публикации и номер версии программы, если он указан. В мире нейросетей изменения происходят постоянно, и информация может устаревать очень быстро.
***
В этой статье речь пойдёт о графической нейросети Leonardo AI. Если вы ещё не знаете, что это такое, то можно начать знакомство с ней отсюда:
Как создать бесплатный аккаунт на Leonardo AI и генерировать сногсшибательные картинки
Рисуем с нейросетью Leonardo AI: как применять стилистические модели и модификаторы
***
Обещания надо выполнять. В том числе и данное мной обещание рассказать о загадочном режиме Alchemy (алхимия), который разработчики Leonardo расхваливают, как приснопамятную корову из стихотворения Сергея Михалкова. Волей-неволей заинтересуешься, так ли хороша эта алхимия, как её расписывают. Правда, любопытство сдерживает один момент.
Alchemy — инструмент, доступный только для подписчиков, то есть за плату. С самого начала меня это не слишком огорчало (не очень-то и хотелось, особенно когда не знаешь, что это такое), но в один прекрасный день Alchemy неожиданно разблокировался, и у меня появилась возможность им пользоваться. Правда, с оговоркой — не более пяти генераций в день. Но мне хватало и этого.
Только радость моя была недолгой. Вскоре выяснилось, что доступ к Alchemy мне предоставили временно — это всего лишь тестовый период длиной в неделю (уведомление об этом приехало с большим опозданием). Наживка, чтобы вызвать у меня зависимость, а потом попросить денег за очередную дозу химии алхимии.
Не вышло. При всём желании разработчиков Leonardo (и даже нашем с ними сильном обоюдном желании), денег они от меня не получат.
Несмотря на это, я всё равно расскажу об Alchemy. У меня на это есть четыре причины:
- во-первых, я не исключаю, что у вас может быть оплачена подписка;
- во-вторых, даже если у вас бесплатный аккаунт, рано или поздно вам тоже могут предложить тест-драйв Alchemy. Они подумают, что застали вас врасплох, но не тут-то было: вы окажетесь к этому подготовлены;
- в-третьих, уточнение "...currently paid feature" ("...в настоящее время платная функция") в описании инструмента вселяет некоторую надежду на то, что когда-нибудь разработчики всё-таки откроют Alchemy для всех пользователей, пусть даже с ограничениями;
- и, в-четвёртых, ну не пропадать же всем этим картинкам! Они создавались специально для этой статьи, в конце концов.
Имея всё это в виду, переходим к делу.
При активной "алхимии" панель инструментов на странице генерации выглядит так (зелёным выделены группы настроек, относящихся к Alchemy):
Слева — настройки инструмента в целом, а справа, сразу под названием выбранной модели, — список доступных стилей, которые работают только с Alchemy. В этой статье изучим их, а настройки оставим на потом.
Изучение сведётся к классическому методу "перепробовать всё и сравнить". Для чистоты эксперимента картинки генерировались по одному запросу с использованием одной платформенной модели — DreamShaper v6. Запрос такой:
A small fantasy creature sitting in the grass by a tree holding a large pear, trees an bushes in the background, evening light (маленькое фантастическое существо сидит в траве под деревом, держа большую грушу, деревья и кусты на заднем плане, вечернее освещение).
Для начала — контрольный рисунок с неактивным Alchemy.
Тут и сказать-то нечего: не задалось у нейросети с фантастическими тварями, как будто она даже и не старалась. Посмотрим, поможет ли алхимия. Далее включаю режим Alchemy и применяю к тому же запросу все стили из списка по очереди.
Начинаем химичить.
1. Anime (аниме).
На первый взгляд всё очень мило, пока не начинаешь считать конечности. Да и груша на первом изображении отсутствует. Но стиль выдержан чётко, тут не придерёшься.
2. Creative (творческий).
Понятия не имею, что имели в виду разработчики, когда называли этот стиль словом creative. Уровень исполнения по сравнению с контрольным вариантом (без алхимии) заметно выше, хотя откуда-то взялись дополнительные персонажи-мутанты, которых никто не звал, но которые портят всё впечатление. Если их убрать, то картинки выглядят вполне прилично, разве что тени слишком густые.
3. Dynamic (динамический).
Здесь я не вижу больших отличий от предыдущего стиля. Если очень захотеть, можно рассмотреть в результатах Dynamic чуть больше трёхмерности, но всё же, наверное, это самообман.
4. Environment (окружающая обстановка).
Судя по количеству мутаций у зверюшек, с окружающей обстановкой в этом фантазийном мире что-то не так. С другой стороны, деревья и трава выглядят очень реалистично, и отлично переданы светотени, хотя и не до степени фотореализма. Судя по названию, этот стиль был создан прежде всего для отрисовки пейзажей и атмосферных интерьеров, поэтому не очень хорошо справляется с генерацией персонажей.
5. General (общий).
Сильнее всего меня здесь удивило превращение фантастического существа в кота. Коты, бесспорно, совершенно фантастические создания, но всё же ожидалось что-то менее обыденное. Или ИИ знает какую-то тайну о котах, которой не знаем мы.
Стилистически — в плане светотени, палитры и общей атмосферы — результат практически тот же самый, что с Environment.
6. Illustration (иллюстрация).
Наконец-то наблюдаем смену стиля: изображения избавились от одного измерения и действительно стали похожи на детальные цветные иллюстрации. Увы, грубые ошибки построения по-прежнему никуда не делись.
7. Photography (фотография).
Этот результат стилистически выглядит для меня совершенно неотличимо от результатов Environment и General. Плюс коты, опять же.
8. Raytraced (трассировка лучей).
Трассировка лучей — узкоспециальный термин, так что мне пришлось провести быструю разведку в интернете, чтобы понять, что это вообще такое. Я не буду утомлять вас пересказом, тем более что нам как пользователям необязательно понимать, как это работает. Главное — это работает с отличным результатом. И пусть груши здесь немножко яблоки, зато персонажи, трава, листва, полено и всё остальное очень убедительны. Разве что можно было бы немного понизить контраст, чтобы проявились детали в тенях. Зависшее над землёй яблоко на второй картинке — единственная ошибка, которую мне удалось найти. На мой взгляд, это самый удачный и проработанный стиль из набора Alchemy.
9. 3D Render (трёхмерный рендер).
Фантастические создания плавно трансформируются из котиков в грызунов, а оттуда — в собачек. В целом результат применения этого стиля почти такой же, как в случае с Raytraced, но в моём примере ошибки чуть грубее. Вердикт: очень реалистично, но не очень убедительно.
10. Sketch B/W (чёрно-белый набросок).
Стиль, который можно найти в наборе фильтров чуть ли не во всех графических редакторах мира. Старый-добрый, хорошо изученный. Но и здесь не обошлось без ошибок — правда, это снова ошибки построения объектов нейросетью, а что до качества штриховки, то у меня вопросов нет.
11. Sketch color (цветной набросок).
Вот эта вот сепия стала для меня неожиданностью: это называется "цветной"? С моей простодушной точки зрения, цветной — это когда используется больше двух цветов. Впрочем, ладно. Глазастые персонажи снова отсылают к аниме, а нелепые ошибки вроде ушастой птички, сидящей на левитирующей палочке, уже стали привычны.
None (без стиля).
Напоследок отключу все стили, но оставлю включённым режим Alchemy. Так тоже можно сделать, выбрав в списке вариант None (ни один). В таком формате Leonardo снова рисует иллюстрации, напоминающие грустную цифровую живопись.
Подведу итог. В описании Alchemy разработчики используют выражение incredibly high-fidelity image generation — невероятно высокая точность генерации изображений. Если под "невероятно высокой точностью" понимается невероятно точное соответствие картинки тексту запроса, то Alchemy в целом рекламу не оправдывает. Если имеется в виду точность построения объектов, то выводы в общем те же. Но три стиля из общей кучи всё же можно выделить: 3D Render, Dynamic и Raytraced. Они показали себя лучше остальных по всем параметрам. Сразу за ними идёт Creative.
Что касается светотени и деталей — то есть всего того, что делает картинку реалистично выглядящей даже при наличии лишних конечностей у персонажей, — то они как раз и управляются настройками в левой панели. С ними повозимся в следующий раз.