Плюс ещё три хороших новости от Leonardo
Сегодня статья снова будет длинной, потому что коротко рассказывать о Leonardo не получается. Если вы пока с ним не знакомы, советую заглянуть в специальную подборку материалов и начать с самых первых, с рассказом о создании аккаунта. Этот ресурс стоит того, чтобы узнать его поближе.
А если у вас уже есть аккаунт на платформе, но вы долго в него не заходили, сейчас я познакомлю вас с новостями. Там много чего интересного произошло.
***
Пока моё внимание всю прошедшую неделю отвлекалось на новости от "Кандинского" и DALL-E, разработчики нейросетевой платформы Leonardo AI потихоньку выкатили целый пакет сюрпризов.
Новинок, появившихся на днях, четыре: две работают только для платных аккаунтов с подпиской, а ещё две — для всех без исключения. Это новая версия режима Alchemy, новые генеративные модели, инструмент увеличения изображений Alchemy Refiner и улучшенный инструмент работы с запросами. Правда, последний снова не без ограничений. Но обо всём по порядку.
Alchemy v2
Во-первых, Leonardo проапгрейдил свой волшебный режим Alchemy до второй версии и, надо полагать, теперь творения нейросети станут ещё более великолепными, реалистичными, безупречными, фантастическими (нужное подчеркнуть) и, хочется верить, наконец уважающими анатомию.
К сожалению, ныне устаревшая первая версия Alchemy после появления апгрейда бесплатной не стала, а вместо этого просто исчезла. Но зато в сервисе появилось кое-что другое.
Новые платформенные модели
На самом деле это даже не одна новинка, а сразу три. Одновременно с Alchemy v2 на сайте появились три новые генеративные модели, основанные на последней версии Stable Diffusion — SDXL. Две из них натренированы командой ресурса и называются поэтому Leonardo Diffusion XL и Leonardo Vision XL. Они универсальны и предназначены для генерации изображений в любом стиле, причём Leonardo Diffusion XL работает одинаково хорошо с запросами любой длины, а Leonardo Vision XL показывает лучшие результаты с подробными расширенными описаниями.
Третью модель обучил энтузиаст с ником albedobond. Модель называется AlbedoBase XL и создаёт картинки в духе цифровой компьютерной графики.
SDXL обучалась на изображениях горизонтальной ориентации классической пропорции 4:3, поэтому все три её дочерние модели тоже лучше всего работают с таким форматом. Листайте галерею алхимиков, созданных новичками:
Самое приятное в этих трёх моделях то, что в них уже встроен режим Alchemy v2. Правда, это бюджетная версия: никаких настроек и дополнительных стилей она не предлагает. Зато это бесплатно, и, похоже, навсегда: отключить свободный доступ к новым моделям разработчики вроде бы не грозились.
Alchemy Refiner
Ещё одна новинка платформы. Как можно догадаться по названию, этот новый инструмент тоже привязан к режиму Alchemy, поэтому сейчас опробовать его я не могу. (Если только не заведу себе третий аккаунт, но я, пожалуй, оставлю это как отчаянную меру на крайний случай.) Возможно, как-нибудь JJ (Джей Джей: за этими инициалами прячется основатель Leonardo AI) расщедрится на очередной семидневный промо-период, а до тех пор просто поверю ему на слово. А говорит он вот что.
Alchemy Refiner — инструмент для увеличения размеров сгенерированной картинки, но не простой, а со встроенным "улучшителем качества". Он добавился в общую панель кнопок для обработки изображения. И хотя даже бесплатную функцию увеличения в Leonardo можно назвать "умной", потому что она перерисовывает картинку в увеличенном размере, сохраняя её качество, Alchemy Refiner делает гораздо больше. Он не просто перерисовывает, но творчески перерабатывает изображение, исправляя ошибки и добавляя к нему множество новых деталей, которых не было в оригинале.
В качестве примера могу показать вам только иллюстрации, которые Leonardo прикрепил к промо-рассылке, упавшей в мой электронный ящик. Те из вас, кто работает в Leonardo, тоже получили это письмо, так что вы уже в курсе. Какая модель и по какому запросу генерировала эти картинки, я не знаю, но результат работы Alchemy Refiner действительно производит впечатление.
Откройте обе картинки в новом окне, чтобы увидеть их в полном размере и лучше оценить разницу.
Random prompt / Improve prompt
Эта новая опция на самом деле — потомок давно существующего инструмента составления запросов на заданную тему под названием Prompt Generation. Новая кнопочка с пиктограммой в виде двух игральных костей появилась слева от строки ввода запроса и доступна всем. Правда, бросить кости можно только 1000 раз. Что случится на тысячу первый — не могу сказать, но к тому времени, возможно, разработчики уже разовьют эту тему дальше. Функций у кнопки с костями только две.
Первая — это New Random Prompt, выбор случайного текстового запроса. Такую опцию уже давно предлагают некоторые платформы: например, KREA, Wonder, DALL-E или Starry AI. Генерирует ли нейросеть новый запрос сама или просто выбирает случайный из базы данных, в которой хранятся все запросы пользователей, я наверняка не знаю. Но кажется, всё же сама. К тому же у неё развивается своеобразное чувство юмора. Вот что она мне предложила:
Завораживающе прекрасное божество искусственного интеллекта неясно вырисовывается в "золотой час", его металлическая форма сверкает в теплом свете. Фотография передаёт внушительное присутствие божества со сложными схемами и светящимися глазами, которые, кажется, следят за каждым движением зрителя. Его золотой экстерьер потускнел и потрескался, намекая на темную и древнюю силу. Ломографический стиль придает изображению сказочность, делая его еще более тревожным. Эта высококачественная фотография прекрасно передает жуткую и потустороннюю природу этого ужасного божества.
Звучит неожиданно пафосно и драматично, не так, как обычно составляются запросы. А ещё звучит очень по-нейросетевому. Надеюсь, это не угроза человечеству.
А вот и оно: древнее ужасное ИИ-божество.
Вторая функция кнопки с костями — Improve Prompt, улучшение запроса. Это уже интереснее, потому что качественное улучшение запроса предположительно может повлиять на результат генерации. Проверим?
Мой оригинальный текст, короткий и по существу: A beautiful female alien face seen through distant galaxies and nebulas (лицо прекрасной инопланетянки, виднеющееся за далёкими галактиками и туманностями). Результат генерации с помощью модели Dream Shaper v6:
А вот как переписал этот текст улучшитель Leonardo (привожу сразу перевод):
Потрясающе неземная женщина-инопланетянка смотрит из далекой галактики, ее черты освещены яркими красками окружающих туманностей. Нежные изгибы ее лица подчеркнуты мягким сиянием звездного света, а пронзительные глаза, кажется, хранят тайны Вселенной. Захватывающее изображение, будь то картина или фотография, в мельчайших деталях передает потустороннюю красоту этого внеземного существа. Замысловатые узоры на ее коже переливаются неземным сиянием, притягивая зрителей к завораживающему и качественному изображению этого небесного создания.
Снова поэтический экстаз, совершенно неожиданный, когда он исходит от нейросети, а не от рафинированного искусствоведа, рассказывающего о какой-нибудь малоизвестной картине на канале "Культура".
И теперь картинки, полученные по отредактированному описанию:
Поэтический надрыв сработал! То ли глаза, хранящие тайны Вселенной, повлияли на результат, то ли нежные изгибы лица, но здесь разницу между "было" и "стало" не заметить сложно.
Improve Prompt — идеальный вариант для тех, кто не любит или не умеет растекаться мыслию по древу и сочинять кучерявые описания простых вещей. ИИ улавливает вашу идею и развивает её в нужном направлении, добавляя горы эпитетов, аналогий, метафор и море драматизма. Говорит он, разумеется, только по-английски, но использовать онлайн-переводчики никто не запрещал.
Для того чтобы Improve Prompt работал, ваш запрос должен содержать не более 100 знаков. В противном случае нейросеть решит, что вы и сами прекрасно справляетесь. Улучшитель работает со всеми моделями на платформе, но для одних разница оказывается заметнее, чем для других.
Вот несколько примеров "до" и "после", сравните сами. Приводить тексты запросов полностью я не буду, потому что уж слишком они многословны, но суть, думаю, и так ясна.
Женщина в платье из осенних листьев:
Фантастический зверь с чертами тигра и птицы:
Волшебный лес с гигантскими грибами:
Роскошный гоночный автомобиль на ночной улице:
Оборотень в доспехах на фоне леса:
Сказочная деревенька, в которой домики сделаны из цветочных лепестков:
Как видите, эта штука и правда работает, и довольно эффективно. Безо всяких дополнительных инструментов, используя одну только силу слова, вы можете изменять результат в лучшую сторону. Правда, иногда при генерации по улучшенному запросу не сохраняется точное соответствие изначальной идее, как в последнем примере, но качество отрисовки и количество деталей в любом случае заметно возрастает.
А ещё улучшенные запросы можно забирать из Leonardo и испытывать на других нейросетях. Эффективнее всего это сработает с моделями, которые точно следуют описанию, а не игнорируют большую его часть. Вы представьте только, что будет, если предложить их старательной DALL-E!
P.S. Похоже, вопрос "Что будет, когда я потрачу все 1000 попыток улучшения запроса" задавало много людей, потому что уже на следующий день на кнопке появилось пояснение. Оказывается, тысяча попыток выдаётся для расходования за две недели, а затем счётчик снова пополняется.
Неплохо, правда?