Генерировать картинки по текстовым промтам, совмещать несколько изображений и стирать ненужное ― «Кандинский» к вашим услугам.
«Кандинский» ― генеративная нейросеть для создания картинок, российский аналог Midjourney.
Работать с ИИ можно бесплатно, и он хорошо понимает русскоязычные запросы. Разбираемся, какой есть функционал у «Кандинского» и как применять его с пользой.
Где можно работать с «Кандинским»
У «Кандинского» есть сайт Fusion Brain с удобным интерфейсом. Но если он вам не подходит, то есть три альтернативных варианта:
- на сайте ruDALL-E, но функционал там урезан ― можно генерировать картинки только по текстовому описанию;
- в приложении «Салют» от «Сбера» можно сказать голосовому помощнику: «Включи художника» ― и откроется «Кандинский».
Что умеет «Кандинский»
«Сбер» выпустил свою первую нейросеть для генерации картинок ещё в 2021 году ― она называлась ruDALL-E. Её обучали на миллиарде связок «текст ― изображение». «Кандинский» унаследовал весь этот багаж знаний и прошёл дополнительное обучение ― на новом датасете из 170 млн пар «текст ― изображение». Нейросеть выпустили летом 2022 года, с тех пор уже вышло два обновления: в ноябре 2022 года и в апреле 2023-го.
Сейчас «Кандинский» может:
- генерировать изображение с нуля по текстовому запросу на 101 языке и создавать картинки в разных стилях ― от фотореализма до рисованных иллюстраций;
- редактировать картинки: на загруженном или сгенерированном изображении можно отметить неподходящие области и написать, чем их заменить, ― «Кандинский» перерисует фрагменты в отмеченном поле;
- соединять два изображения в одно;
- достраивать изображение: когда «Кандинский» сгенерировал картинку, он может дорисовать что-нибудь сверху, снизу, справа и слева. Работает примерно как новая ИИ-функция в Photoshop.
Быстрый старт
Получите ваше первое изображение с помощью Fusion Brain.
Пройдите регистрацию
Проходим простую регистрацию на fusionbrain.ai (если вы еще не присоединились к платформе) - для этого вам потребуется только e-mail (не забудьте его подтвердить, иначе часть функций будет недоступна).
Перейдите в редактор
Нажмите на кнопку “Начать” в верхнем правом углу страницы.
Интерфейс и функционал
Интерфейс официального сайта редактора выглядит так:
По центру ― область для будущего изображения. По умолчанию размер 768×768 px, но его можно уменьшить с помощью фиолетовой рамки. В нижнем левом углу можно выбрать стиль изображения. По центру под этой рамкой ― область для промпта, там же и кнопка «Создать».
Запустите генерацию
Промпт:
модная молодая девушка, блондинка, фото в лесу
Также можно использовать опцию “негативный промпт”, которая позволяет убирать с изображения указанные в тексте детали.
Чтобы сэкономить время, выберите готовый стиль для вашего изображения из заранее подготовленных пресетов. Вы также можете загрузить свой стиль.
Применим к нашему промту стиль “Киберпанк”
Далее дорисуем область к нашему изображению. Для этого добавляем область и прописываем промпт.
Мы оставили промпт без изменений, поэтому у нас на изображении 2 девушки.
Итог:
Ещё несколько функций редактора можно найти в меню в левом верхнем углу. Например, если нажать на иконку с картиной, можно добавить референс. Нейросеть не может значительно изменять загруженные картинки, но может заполнить пустое пространство вокруг. Для этого оптимально подходят картинки в PNG с прозрачным фоном.
Далее покажем вставить картинку сумку и нарисовать ее на фоне песка
Скачиваем изображение без фона в формате png и загружаем на сайт.
Запускаем генерацию. Пока картинка создается - вы можете насладиться красивым звездным небом 😊
Также справа от инструмента для загрузки фото есть инструмент «Ластик». Им можно стереть всё ненужное ― на загруженном или сгенерированном изображении. Потом нужно написать запрос, на что заменить неподходящие фрагменты, и нейросеть выдаст результат.
Сохраните результат
Нейросеть сохраняет изображения, которые вы создали, только на время сеанса: пролистать их можно с помощью стрелочек слева от кнопки «Скачать». Если покинуть сайт, изображения уже нигде не удастся найти. Желаем успешных генераций 🙂
Как формулировать промпты
Протестировать «Кандинского» удобнее всего на официальном сайте Fusion Brain, здесь доступен весь функционал нейросети. Для хорошего результата важно правильно задать запрос:
- Сначала укажите главные объекты на картинке.
- Если нужно, укажите характеристики этих объектов (цвет, размер, текстура).
- При необходимости добавьте действие, которое они должны совершать.
- Задайте место действия (комната, улица, лес, космический корабль).
- Можно задать стилистику рисования, если нужного варианта не нашлось в меню сервиса. Также для уточнения стилистики подойдут имена известных художников или фотографов.
- Не упоминайте слишком много объектов с конкретными деталями ― так нейросеть может запутаться, и результат выйдет не таким, как хотелось.
- В запросах избегайте частицы «не» и других отрицаний.
Сравним Midjourney и Кандинский
Принцип построения запроса один и тот же для всех нейросетей: в Midjourney и других «рисующих» ИИ этот чек-лист тоже можно использовать.
Для примера рассмотрим несколько англоязычных промптов, по которым «Кандинский» выдал качественные изображения.
ПРОМПТ:
Fashion Photography of a Nordic Supermodel wearing a White Shirt as a Dress
Модная фотография североевропейской супермодели, надевшей белую рубашку как платье
ПРОМПТ:
Illustration of an African American cyberpunk hacker in a virtual reality setting, surrounded by holographic code, futuristic UI, and virtual landscapes, Surreal Cyberpunk Art Style, Influenced by Deviantart and Ghost in the Shell anime, Camera: POV, Lens: Augmented Reality Lens, Render Style: Isometric Assets, 4K resolution, (((Cyberpunk))), Input Resolution 512 x 768px, Pipeline Alchemy V2, Seed 481211904 Preset Photography, Finetuned Model Leonardo Diffusion XL
Иллюстрация афроамериканского киберпанк-хакера в виртуальной реальности, окруженного голографическим кодом, футуристическим пользовательским интерфейсом и виртуальными пейзажами. Стиль: сюрреалистичный киберпанк, вдохновленный Deviantart и аниме "Призрак в доспехах". Точка зрения: от первого лица, объектив: объектив дополненной реальности, стиль рендеринга: изометрические элементы, разрешение: 4K, (((Киберпанк))), разрешение ввода: 512 x 768 пикселей, пайплайн: Alchemy V2, сид: 481211904, предустановка: фотография, уточненная модель: Leonardo Diffusion XL.
Да, Midjourney выдаёт изображение, которые детально проработанные, но это платный сервис и он дольше на рынке. Думаю, смело можно ждать, что Кандинский догонит, а может быть и перегонит Midjourney
Если у вас остались вопросы, то у меня есть полный бесплатный урок на ютубе:
______________________________
Ютуб: @chat_gpt_expert
Курс по нейросетям: https://finkacademy. com
Бот телеграм @ru_chat_gpt_free_bot
Сайт: https://aiforyou. ru/
Inst: @fink_gpt
Telegram канал: https://t. me/chat_gpt_expert