MIR - Студия разработки умных устройств (Embedded NN Lab)

124 подписчика

Карманный художник, или как ИИ может воплотить ваши фантазии

9 марта 20259 мар 2025

6 мин

О возможностях ИИ в сфере искусства уже не первый год бурлят дискуссии. Мнения разделились на тех, кто в восхищении от яркости картинок, обширных возможностей и полного отсутствия авторских прав, и тех, кто искренне не понимает, как машина может заменить человеческую душу и талант ("Она даже количество пальцев рисует каждый раз разное!"). Мы же расскажем о нашем опыте работы с сервисами по генерации изображений, и покажем, что они умеют на примере одного. Весь, конечно же, не охватим, но популярные сервисы зацепим. Главным хедлайнером в этой области, конечно же, считается Midjourney. Но, увы, с самого начала это развлечение было платным. Есть пробный бесплатный период, а потом можно пробовать заработать доп.время за активность или постоянно создавать новые аккаунты, но по сути даже этого едва хватает на то, чтобы "въехать", как оно работает. О том, чтобы попробовать все его возможности за бесплатный период, даже и речи нет. Ещё один минус - английский язык. Все промты (текстовые запрос

Оглавление

Огласите весь список, пожалуйста...
Почему Кандинский?
1) Простые промты на русском языке

Мы же расскажем о нашем опыте работы с сервисами по генерации изображений, и покажем, что они умеют на примере одного.

Огласите весь список, пожалуйста...

Весь, конечно же, не охватим, но популярные сервисы зацепим.

Главным хедлайнером в этой области, конечно же, считается Midjourney. Но, увы, с самого начала это развлечение было платным. Есть пробный бесплатный период, а потом можно пробовать заработать доп.время за активность или постоянно создавать новые аккаунты, но по сути даже этого едва хватает на то, чтобы "въехать", как оно работает. О том, чтобы попробовать все его возможности за бесплатный период, даже и речи нет.

Ещё один минус - английский язык. Все промты (текстовые запросы для создания изображений) - на английском. Для незатейливых изображений пойдёт и школьный английский, но промты в Midjorney - особая тема. Есть даже группы, где выкладываются промты особо удачных изображений. Такую же картинку вы не получите, но что-то похожее вполне.

Нагляднее будет показать:

Промт: In the wreckage of a long-abandoned supermarket, a colossal black cat crouches beside a young girl with white hair, her red clothes torn but functional. The aisles are cluttered with broken shelves, scattered cans, and creeping greenery overtaking the space. Sunlight streams through gaping holes in the ceiling, illuminating the pair as the girl inspects a dusty can of food while the cat watches protectively, its glowing eyes scanning the overgrown ruins. The atmosphere is quiet but filled with the tension of survival in a forgotten world. Created using: post-apocalyptic realism, overgrown textures, cinematic framing, dynamic lighting, surreal character design —ar 9:16 —style raw —profile 5xmt8k2 —stylize 600 —v 6.1

Результат:

Промт: ultra low side angle view from above of a 25 year old 1960's NASA astronaught wife. she is looking into camera. she is wearing vintage 1960's black rayban sunglasses. it is at sunset. in the reflection of her sunglasses you can see a 1960's space rocket taking off with smoke billowing from the engines. she has a concerned look on her face —quality 2 —v 6.1

Результат:

Прочувствовали, что помимо стандартного английского, тут ещё куча параметров? И с наскока в них не разберёшься.

Были также робкие попытки поработать в DALL-E, но Midjourney победил своей графикой безоговорочно, и сетка с именем созвучным тому, который носил один романтичный робот, осталась вне поле моего внимания.

Русские сервисы подъехали в приемлемом качестве только спустя где-то год. Самые известные - Шедеврум от Яндекс и Кандинский от Сбербанка, но по сердцу пришёлся именно второй. Почему именно он, и что он вообще умеет, посмотрим дальше.

В Шедевруме всё тоже довольно просто и интуитивно понятно

Почему Кандинский?

Стоит сделать небольшой дисклеймер: это ни в коем случае не реклама, просто наши предпочтения. У вас может быть иное мнение.

Итак, какие же плюсы мы нашли у Кандинского?

1) Простые промты на русском языке

Вы уже видели выше, что промт в Midjourney мало того, что на английском, так ещё и с километрами служебных команд. Для создания своего шедевра, стоит сначала хорошо погрузиться в мануал и даже в чём-то быть немного программистом.

В Кандинском нет проблемы с языком, есть другая: машина не всегда может понять, что вы хотите. Придётся поиграть с синонимами или конструкциями, чтобы добиться своего. Вот так мы пытались создать открытку на новый год:

2) Бесплатно

Честно-честно, с нас ни копейки не взяли. Может быть, конечно, потом лавочка прикроется, но пока мы наслаждаемся моментом.

3) Безлимит

Мало того, что денег не берут, так ещё и лимитов нет: ни дневных, ни месячных. Хочешь играться в художника - на здоровье. Только иногда, когда одновременно бота мучают много людей, придётся ждать генерации картинки дольше обещанных 3-10 секунд.

4) Доступно

Кандинский доступен:

на сайте Сбера;
на платформе Fusion Brain (это как раз для тех, кто хочет посерьёзнее влезть в это творчество, тут можно послойно творить и редактировать);
в виртуальном ассистенте в Android-приложении Салют

• на умном устройстве под управлением Салют ТВ по команде «Включи художника»

в телеграмме (мы как раз в этом варианте больше всего и пробуем свои силы)

Если хотите попробовать - сканируйте QR-код

5) Нет водяных знаков

Тут стоит оговориться, водяные знаки есть в веб-версии. В версии телеграмма - нет. Да вы и сами не раз видели - на обложках наших статей и видео. Да-да, это всё старина Кандинский нагенерировал, ну, мы ему чуточку помогли своими промтами.

Кстати говоря, это один из факторов, почему Шедеврум не зашёл.

Что он умеет?

Бот в телеграмме предлагает несколько режимов:

Генерация изображения: создание изображений по вашим текстовым описаниям;
Генерация видео: создание очень коротких клипов по вашим описаниям или создание анимации из загруженных картинок. Скажем честно: пробовали, вышло не очень, разочаровались. Конечно, всегда есть возможность "кривых" рук. Если когда-то научимся правильно с этим режимом работать - расскажем!
Работа с изображениями: можно взять готовые изображения и либо смешать их с чем-то (другой картинкой или вашим промтом), либо сделать перенос стиля (взять стиль с другой картинки берём или задать текстом), либо вариацию (тут вы почти ничем не управляете, кроме размеров результирующей картинки, ИИ сам берёт и "колбасит" загруженное изображение по своему усмотрению);
Аватары: если вы хотели сделать себе симпатичную мордашку на аватарке - велком! Выбираете пол, стиль, загружаете своё фото и либо восхищаетесь, либо ужасаетесь. Если последнее, то не теряйте надежду, можно попробовать ещё раз! Количество попыток не ограничено!
Создание стикера: по сути та же генерация изображения по текстовому описанию только результат в формате стикера.

Есть и ограничения: никакого насилия, национальной вражды, пропаганды нетрадиционных отношений или экстремистских настроений, преступлений, изображений сексуального характера и... бот не даст ничего сгенерировать с государственной символикой.

Как оно работает?

1) Заходим в канал бота. По кнопке "Меню" выбираем команду /start.

2) Выбираем режим "Генерация изображения"

3) Введите текстовый запрос того, что вы хотите увидеть на картинке. Например, "Водопад в космосе"

3) Задаём параметры:

соотношение сторон: панорама 16:9, квадрат 1:1 (по умолчанию) или портрет 9:16
стиль: Без стиля (по умолчанию и мы его рекомендуем), цифровая живопись, детальное фото или аниме.

промт: текстовое описание, мы его уже задали, но вдруг вы решите что-то поправить;
модель: версия ИИ, которое будет генерировать изображение;
нег.промт: описание того, что на изображении быть НЕ должно.

4) Нажимаем "Начать генерацию". И через 3-10 секунд получаем результат! Не понравилось? Есть кнопка "Повторить генерацию", либо начните заново и напишите более точный промт.

Примеры

Запрос:
Удивленный кот смотрит в окно на Бэтмена
Режим: Генерация изображения
Стиль: Без стиля
Соотношение сторон: 🖥 Панорама 16:9
Модель: Kandinsky 3.1
Негативный промпт: Нет

Видите Бэтмена? Мы тоже нет... Видимо, прячется

Запрос:
Мастер Йода работает в аптеке
Режим: Генерация изображения
Стиль: Без стиля
Соотношение сторон: 🖥 Панорама 16:9
Модель: Kandinsky 3.1
Негативный промпт: Нет

Переходи на светлую сторону! У нас есть аспирин!

Запрос:
красивый цветок распустился в космосе
Режим: Генерация изображения
Стиль: Цифровая живопись
Соотношение сторон: 🖥 Панорама 16:9
Модель: Kandinsky 3.1
Негативный промпт: Нет

А какие ИИ вы пробовали для своих творческих идей? Делитесь в комментариях!

А в следующий раз мы попробуем истолковать сны при помощи ИИ-сервисов:

Ой, да во сне привиделось, или сонники на базе ИИ

MIR - Студия разработки умных устройств (Embedded NN Lab)16 марта 2025

Возможно, вам также будет интересно:

Пасха на загляденье, или как создать контент с ИИ

MIR - Студия разработки умных устройств (Embedded NN Lab)20 апреля 2025

Открытки от ИИ, или как подойти к поздравлению с умом

MIR - Студия разработки умных устройств (Embedded NN Lab)11 мая 2025

ИИ знает толк фото, или как выглядеть на паспорте сносно

MIR - Студия разработки умных устройств (Embedded NN Lab)25 мая 2025