Найти тему

Кради как художник: откуда нейросеть "Кандинский" берёт вдохновение

"Двурогий единорог", Leonardo AI, DreamShaper v5, экран, пиксели, 2023 год. Фрагмент.
"Двурогий единорог", Leonardo AI, DreamShaper v5, экран, пиксели, 2023 год. Фрагмент.

Прежде чем я перейду к делу, хочу напомнить, что я не программист и тем более не разработчик нейросетей, поэтому любые мои суждения и выводы, озвученные ниже, могут оказаться в чём-то неверными. Если вы разбираетесь в вопросе лучше меня и можете что-либо прояснить или исправить, с благодарностью приму ваши комментарии :)

Началось всё со здорового любопытства и желания расширить горизонты - свои личные и этого канала. Зачем ограничиваться в своих экспериментах только двумя рисующими нейросетями, если вокруг - дивный новый мир, где эти сети (нейросетевые модели, если быть точнее) плодятся как грибы после дождя?

Поиски чего-нибудь в первую очередь бесплатного принесли плоды в виде связки очень интересных ресурсов. Среди них особенно выделялся Leonardo AI, как по количеству восторженных блогеров, пишущих и снимающих обзоры, так и по объективным параметрам - удобству использования, скорости и качеству генерации. В мире поклонников нейросетевого искусства это новый кумир, горячая штучка, лидер хит-парадов и прочая, и прочая.

Чтобы понять, насколько это чудо кибермысли отличается от нашенских, нужно было устроить мини-баттл по обычным моим правилам: каждая модель получает один и тот же запрос, а потом я сравниваю результаты.

Первый же запрос, простите некоторый пафос, сбросил пелену с моих глаз.

Это лучше один раз увидеть. Первая галерея в каждой паре - результат генерации "Кандинского", вторая - Leonardo AI.

Запрос: silvery alien spaceship stands in a filed of blue flowers under the clear blue sky on a sunny day, forest in the background.

(Серебристый инопланетный корабль стоит в поле синих цветов под чистым голубым небом в солнечный день, лес на заднем плане.)

Запрос: a majestic glowing jellyfish with long wavy tentacles, clear, transparent, pink, purple, golden, turquoise, strong glow, dark blue background, hyper realism, high resolution, high detail.

(Великолепная светящаяся медуза с длинными волнистыми щупальцами, прозрачная, розовая, пурпурная, золотая, бирюзовая, сильное свечение, тёмно-синий фон, гиперреализм, высокое разрешение, высокая детализация.)

Запрос: yellow lemon-shaped bathyscaphe underwater, surface looks like lemon skin, large front window, moving towards the viewer, turquoise and green water, colorful corals, tropical fish, light coming from above, light spots on the bathyscaphe, high detail, realistic, digital painting, 4k, steampunk style.

(Жёлтый батискаф в форме лимона под водой, поверхность выглядит как кожура лимона, большой передний иллюминатор, движется по направлению к зрителю, бирюзовая и зелёная вода, цветные кораллы, тропические рыбки, свет падает сверху, пятна света на батискафе, высокая детализация, реалистично, цифровая живопись, 4k, в стиле стимпанк.)

Запрос: magical iridescent unicorn with sparkling rainbow mane and tail jumping over a pink cloud with confetti, hyper realism, atmospheric, high detail.

(Волшебный радужный единорог со сверкающей радужной гривой и хвостом прыгает через розовое облако с конфетти, гиперреализм, атмосферно, высокая детализация.)

Запрос: butterfly-shaped multicolor galaxy with plethora of bright stars surrounding it.

(Разноцветная галактика в форме бабочки с мириадами ярких звёзд вокруг.)

Запрос: a golden metallic tiger jumping through a ring of fire.

(Тигр цвета золотой металлик прыгает сквозь кольцо огня.)

Кстати, помните лисёнка в синей курточке с пирожными и двумя хвостами? Привет вам от него:

И от травника привет:

Это объясняет, почему "Кандинский" выдаёт серии иллюстраций в едином стиле - Leonardo AI по основной задумке должен работать как инструмент для создания элементов компьютерных игр, где единообразие - необходимое условие.

Если вы уже набрали побольше воздуха в лёгкие, чтобы освистать и "Кандинского", и Сбер за плагиат, выдохните пока и послушайте, что я вам скажу.

Есть такая штука как открытый код. Его создатели - программисты-филантропы, чистые коммунисты по духу (не осознающие этого), которые не жадничают и делятся им со всеми желающими, рассчитывая на то, что другие умные люди будут его изучать и, возможно, дописывать к нему что-то своё, совершенствуя и развивая программы на его основе, в результате чего должно наступить всеобщее благоденствие.

Например, в основе браузера Chrome - движок Blink и открытый код из проекта Chromium, детища Google и кучи примкнувших к нему компаний. В основе браузера Opera - движок Blink и открытый код из проекта Chromium, детища Google и кучи примкнувших к нему компаний. А в основе Яндекс Браузера - ... угадаете с первого раза? Правильно, движок Blink и вот это вот всё.

При этом все три браузера выглядят по-разному и имеют свои особенности. А по поводу того, что в основе их лежат одни и те же куски кода, никто не возмущается, потому что это нормально.

Объясняет ли это сходство изображений "Леонардо" и "Кандинского"?

"К чему вся эта история про браузеры?" - Leonardo AI - DreamShaper v5
"К чему вся эта история про браузеры?" - Leonardo AI - DreamShaper v5

М-м-м... пока нет. Но это подводит нас к следующей части.

Для нейросетевых моделей тоже существует исходный открытый код. Этих моделей развелось уже огромное множество, и взаимосвязи между ними в моём представлении по сложности примерно соответствуют нейронным связям в мозгу - всё очень запутанно, но составляет единую систему и как-то работает.

В основе многих, если не большинства, сегодняшних графических нейросетевых моделей (включая Leonardo AI) лежит открытый код, известный под названием Stable Diffusion. Более того, за разработкой разных моделей часто стоят одни и те же люди. Группы разработчиков интернациональны и включают в том числе специалистов с русскими именами.

"Вы можете тренировать вашу собственную модель, используя Leonardo AI", заявлено на главной странице одноимённого сайта. Расценим это как приглашение к сотрудничеству, хотя авторы имеют в виду нечто отличное от копирования кода (то, что они имеют в виду, тоже интересно и даже не требует специальных глубоких знаний, чтобы попробовать - при случае расскажу и об этом).

Так или иначе, разработка Сбера крепко базируется на разработке людей, стоящих за Leonardo AI - которая так же, как, например, генеративные модели DeepFloyd и Lexica, базируется на StableDiffusion. Всё связано.

Откуда у меня такая уверенность в том, что "Кандинский" срисовывает именно у "Леонардо", раз все дороги всё равно ведут к StableDiffusion? Оттуда, что другие модели, построенные на StableDiffusion, по этим же запросам генерируют совсем другие изображения.

А что с "Шедеврумом"? А пока ничего. Его очевидные связи с другими нейросетями, если и существуют, мной пока не найдены. Возможно, в процессе блуждания от одной модели к другой я наткнусь и на них, а может быть, это совершенно оригинальная разработка (ну бывает же и такое, в самом деле). Поживём - увидим.

Я обязательно скоро расскажу обо всех графических нейросетях, которые мне удалось накопать и которыми можно пользоваться бесплатно, и объясню, как это делать. Прямо вот с Leonardo и начну. Там одних настроек столько, что потребуется несколько публикаций, чтобы ничего не упустить.

В общем, будет интересно.