1132 подписчика

Как три Российские нейросети в ракурсе генерации изображений воспринимают и иллюстрируют красоту осени

22 сентября 202322 сен 2023

3 мин

Сегодня для нас доступны бесплатные нейросети с запросами на русском языке, которые можно встретить в интернете под названиями Kandinsky 2. 1, Kandinsky 2. 2 (т. е. имеются две версии), Fusion Brain и GigaChat. Еще их называют «нейросетевые модели». По функциям создания изображений на основе текстовых запросов различия у них, в основном, в интерфейсе (экранах) пользователя. А реализация алгоритмов генерации почти одинакова, поскольку разработчик у них один - Институт AIRI (научно-исследовательский институт искусственного интеллекта). Использовался открытый исходный код, который локализовывался для России. Заказчик -Сбербанк России. Нейросетевая модель Kandinsky 2. 2 Прямой адрес для работы с этой нейросетью по ссылке здесь. Ниже показан экран ввода запроса для генерации изображения с примером его заполнения. Для запуска создания изображения требуется: После нажатия кнопки «Отправить» вам далее предложат для обратной связи выровнять картинку, используя ползунок, как на скрине ниже: В ре

Оглавление

Нейросетевая модель Kandinsky 2. 2
Нейросетевая модель Fusion Brain
Нейросетевая модель GigaChat

По функциям создания изображений на основе текстовых запросов различия у них, в основном, в интерфейсе (экранах) пользователя. А реализация алгоритмов генерации почти одинакова, поскольку разработчик у них один - Институт AIRI (научно-исследовательский институт искусственного интеллекта). Использовался открытый исходный код, который локализовывался для России. Заказчик -Сбербанк России.

Нейросетевая модель Kandinsky 2. 2

Прямой адрес для работы с этой нейросетью по ссылке здесь. Ниже показан экран ввода запроса для генерации изображения с примером его заполнения.

Для запуска создания изображения требуется:

Ввести текстовый запрос на создание;
Выбрать из списка соотношение сторон;
Выбрать разрешение картинки в пикселях;
Выбрать стиль для картинки (можно и без стиля- по молчанию);
Нажать кнопку «Отправить».

После нажатия кнопки «Отправить» вам далее предложат для обратной связи выровнять картинку, используя ползунок, как на скрине ниже:

В результате по запросу «Красивая природа осени» получили вот такую картинку:

Результат генерации, полученный по простому запросу "Красивая природа осени"

С запросами можно экспериментировать в части их изменения и детализации. Например, по запросу «Красивая природа осени с озером и красивой девушкой крупным планом» получили следующую картинку:

Нейросетевая модель Fusion Brain

Прямой адрес для работы с этой нейросетью по ссылке здесь. Ниже показан экран ввода запроса для генерации изображения.

На экране показаны поля для ввода необходимых данных для запроса по созданию изображения.

ПРИМЕЧАНИЕ: На экране скриншота осталась картинка по прошлому аналогичному запросу «Красивая природа осени с озером и красивой девушкой крупным планом». Мы видим, что сформирована почти та же самая картинка, что и в Kandinsky 2.2 с небольшими отличиями.

В чем отличие интерфейса в Fusion Brain от Kandinsky 2.2?

Есть возможность перемещать раннее созданные картинки по всему рабочему полю экрана с помощью кнопок «Перемещение» и «Рука», а далее продолжать формировать рядом новые картинки. Удобно для сравнения.
Можно с помощью кнопки «Ластик» стирать часть сгенерированного изображения и заменять его на другое изображение или фон. При этом запрос тоже нужно откорректировать, иначе при генерации все снова восстановится. Поэкспериментируйте с этим сами.
Можно изменять процент показа изображения на экране.
Есть кнопки «Отмена» и «Повторить».

Далее проверил, а может ли нейросеть изобразить эмоции? Написал запрос "Красивая природа осени с озером и красивой грустной девушкой крупным планом " (добавил слово грустной). Как вам видится, отличаются ли девушки по настроению? По моему, да...

Сравнение девушек в разном эмоциональном состоянии

Нейросетевая модель GigaChat

Это многофункциональная нейросеть от Сбербанка, которая постоянно дорабатывается и тестируется. Доступ к нейросети сделан в Telegram для подписчиков (канал GigaChat). В настоящее время бесплатно. Интернет-адрес бота - https: //t. me/gigachat_bot

Поскольку в этой статье мы проверяем только функции генерации изображений, то для этого бота я написал в чате фразу «Нарисуй красивая природа осени» и отправил сообщение. Получил вот такую картинку:

Для сохранения картинки после нажатия правой клавиши мыши выбрать пункт меню «Сохранить как...». Проверил, что будет, если еще раз отправить то же самое сообщение-запрос. Получил немного другую картинку:

Далее в чате отправил боту расширенный запрос: «Нарисуй красивая природа осени с озером и красивой девушкой», на что получил такое изображение:

На сегодня бот GigaChat выдает только квадратные картинки. Единственный способ управление генерацией картинок - это пока только формулировки текстовых запросов. Но эта нейросеть развивается.

А какие будут практические выводы предложения?

Предлагаю как себе, так и вам, уважаемые читатели, следующее:

Несомненно, что полученные картинки возможно использовать для некоторых иллюстраций своих авторских публикаций в интернете.
Можно выбрать для себя любой сегодняшний интерфейс по душе.
Далее поэкспериментировать со структурой построения запросов, поскольку это влияет на обучение систем по выбору объектов и связей между ними. Можно попробовать использовать запятые для разделения понятий.
Можно также поэкспериментировать со стилями, там, где это возможно.

Пробуем новое и удачи всем нам!

Буду благодарен за ваши мнения об этом направлении, является ли это творчеством? А также за комментарии, предложения и обмен опытом!

Гаджеты и электроника

5,73 млн интересуются