Найти тему
Мир вокруг и мы

Как три Российские нейросети в ракурсе генерации изображений воспринимают и иллюстрируют красоту осени

Оглавление

Сегодня для нас доступны бесплатные нейросети с запросами на русском языке, которые можно встретить в интернете под названиями Kandinsky 2. 1, Kandinsky 2. 2 (т. е. имеются две версии), Fusion Brain и GigaChat. Еще их называют «нейросетевые модели».

По функциям создания изображений на основе текстовых запросов различия у них, в основном, в интерфейсе (экранах) пользователя. А реализация алгоритмов генерации почти одинакова, поскольку разработчик у них один - Институт AIRI (научно-исследовательский институт искусственного интеллекта). Использовался открытый исходный код, который локализовывался для России. Заказчик -Сбербанк России.

Нейросетевая модель Kandinsky 2. 2

Прямой адрес для работы с этой нейросетью по ссылке здесь. Ниже показан экран ввода запроса для генерации изображения с примером его заполнения.

Экран (интерфейс) нейросети Кандинский версии 2.2
Экран (интерфейс) нейросети Кандинский версии 2.2

Для запуска создания изображения требуется:

  • Ввести текстовый запрос на создание;
  • Выбрать из списка соотношение сторон;
  • Выбрать разрешение картинки в пикселях;
  • Выбрать стиль для картинки (можно и без стиля- по молчанию);
  • Нажать кнопку «Отправить».

После нажатия кнопки «Отправить» вам далее предложат для обратной связи выровнять картинку, используя ползунок, как на скрине ниже:

Проверка перед запуском задания
Проверка перед запуском задания

В результате по запросу «Красивая природа осени» получили вот такую картинку:

Результат генерации, полученный по простому запросу "Красивая природа осени"
Результат генерации, полученный по простому запросу "Красивая природа осени"

С запросами можно экспериментировать в части их изменения и детализации. Например, по запросу «Красивая природа осени с озером и красивой девушкой крупным планом» получили следующую картинку:

Результат уточненного запроса
Результат уточненного запроса

Нейросетевая модель Fusion Brain

Прямой адрес для работы с этой нейросетью по ссылке здесь. Ниже показан экран ввода запроса для генерации изображения.

Экран нейросети Fusion Brain
Экран нейросети Fusion Brain

На экране показаны поля для ввода необходимых данных для запроса по созданию изображения.

ПРИМЕЧАНИЕ: На экране скриншота осталась картинка по прошлому аналогичному запросу «Красивая природа осени с озером и красивой девушкой крупным планом». Мы видим, что сформирована почти та же самая картинка, что и в Kandinsky 2.2 с небольшими отличиями.

В чем отличие интерфейса в Fusion Brain от Kandinsky 2.2?

  • Есть возможность перемещать раннее созданные картинки по всему рабочему полю экрана с помощью кнопок «Перемещение» и «Рука», а далее продолжать формировать рядом новые картинки. Удобно для сравнения.
  • Можно с помощью кнопки «Ластик» стирать часть сгенерированного изображения и заменять его на другое изображение или фон. При этом запрос тоже нужно откорректировать, иначе при генерации все снова восстановится. Поэкспериментируйте с этим сами.
  • Можно изменять процент показа изображения на экране.
  • Есть кнопки «Отмена» и «Повторить».

Далее проверил, а может ли нейросеть изобразить эмоции? Написал запрос "Красивая природа осени с озером и красивой грустной девушкой крупным планом " (добавил слово грустной). Как вам видится, отличаются ли девушки по настроению? По моему, да...

Сравнение девушек в разном эмоциональном состоянии
Сравнение девушек в разном эмоциональном состоянии

Нейросетевая модель GigaChat

Это многофункциональная нейросеть от Сбербанка, которая постоянно дорабатывается и тестируется. Доступ к нейросети сделан в Telegram для подписчиков (канал GigaChat). В настоящее время бесплатно. Интернет-адрес бота - https: //t. me/gigachat_bot

Мой начальный диалог с ботом GigaChat
Мой начальный диалог с ботом GigaChat

Поскольку в этой статье мы проверяем только функции генерации изображений, то для этого бота я написал в чате фразу «Нарисуй красивая природа осени» и отправил сообщение. Получил вот такую картинку:

Для сохранения картинки
Для сохранения картинки

Для сохранения картинки после нажатия правой клавиши мыши выбрать пункт меню «Сохранить как...». Проверил, что будет, если еще раз отправить то же самое сообщение-запрос. Получил немного другую картинку:

-9

Далее в чате отправил боту расширенный запрос: «Нарисуй красивая природа осени с озером и красивой девушкой», на что получил такое изображение:

-10

На сегодня бот GigaChat выдает только квадратные картинки. Единственный способ управление генерацией картинок - это пока только формулировки текстовых запросов. Но эта нейросеть развивается.

А какие будут практические выводы предложения?

Предлагаю как себе, так и вам, уважаемые читатели, следующее:

  1. Несомненно, что полученные картинки возможно использовать для некоторых иллюстраций своих авторских публикаций в интернете.
  2. Можно выбрать для себя любой сегодняшний интерфейс по душе.
  3. Далее поэкспериментировать со структурой построения запросов, поскольку это влияет на обучение систем по выбору объектов и связей между ними. Можно попробовать использовать запятые для разделения понятий.
  4. Можно также поэкспериментировать со стилями, там, где это возможно.

Пробуем новое и удачи всем нам!

Буду благодарен за ваши мнения об этом направлении, является ли это творчеством? А также за комментарии, предложения и обмен опытом!