Сегодня для нас доступны бесплатные нейросети с запросами на русском языке, которые можно встретить в интернете под названиями Kandinsky 2. 1, Kandinsky 2. 2 (т. е. имеются две версии), Fusion Brain и GigaChat. Еще их называют «нейросетевые модели».
По функциям создания изображений на основе текстовых запросов различия у них, в основном, в интерфейсе (экранах) пользователя. А реализация алгоритмов генерации почти одинакова, поскольку разработчик у них один - Институт AIRI (научно-исследовательский институт искусственного интеллекта). Использовался открытый исходный код, который локализовывался для России. Заказчик -Сбербанк России.
Нейросетевая модель Kandinsky 2. 2
Прямой адрес для работы с этой нейросетью по ссылке здесь. Ниже показан экран ввода запроса для генерации изображения с примером его заполнения.
Для запуска создания изображения требуется:
- Ввести текстовый запрос на создание;
- Выбрать из списка соотношение сторон;
- Выбрать разрешение картинки в пикселях;
- Выбрать стиль для картинки (можно и без стиля- по молчанию);
- Нажать кнопку «Отправить».
После нажатия кнопки «Отправить» вам далее предложат для обратной связи выровнять картинку, используя ползунок, как на скрине ниже:
В результате по запросу «Красивая природа осени» получили вот такую картинку:
С запросами можно экспериментировать в части их изменения и детализации. Например, по запросу «Красивая природа осени с озером и красивой девушкой крупным планом» получили следующую картинку:
Нейросетевая модель Fusion Brain
Прямой адрес для работы с этой нейросетью по ссылке здесь. Ниже показан экран ввода запроса для генерации изображения.
На экране показаны поля для ввода необходимых данных для запроса по созданию изображения.
ПРИМЕЧАНИЕ: На экране скриншота осталась картинка по прошлому аналогичному запросу «Красивая природа осени с озером и красивой девушкой крупным планом». Мы видим, что сформирована почти та же самая картинка, что и в Kandinsky 2.2 с небольшими отличиями.
В чем отличие интерфейса в Fusion Brain от Kandinsky 2.2?
- Есть возможность перемещать раннее созданные картинки по всему рабочему полю экрана с помощью кнопок «Перемещение» и «Рука», а далее продолжать формировать рядом новые картинки. Удобно для сравнения.
- Можно с помощью кнопки «Ластик» стирать часть сгенерированного изображения и заменять его на другое изображение или фон. При этом запрос тоже нужно откорректировать, иначе при генерации все снова восстановится. Поэкспериментируйте с этим сами.
- Можно изменять процент показа изображения на экране.
- Есть кнопки «Отмена» и «Повторить».
Далее проверил, а может ли нейросеть изобразить эмоции? Написал запрос "Красивая природа осени с озером и красивой грустной девушкой крупным планом " (добавил слово грустной). Как вам видится, отличаются ли девушки по настроению? По моему, да...
Нейросетевая модель GigaChat
Это многофункциональная нейросеть от Сбербанка, которая постоянно дорабатывается и тестируется. Доступ к нейросети сделан в Telegram для подписчиков (канал GigaChat). В настоящее время бесплатно. Интернет-адрес бота - https: //t. me/gigachat_bot
Поскольку в этой статье мы проверяем только функции генерации изображений, то для этого бота я написал в чате фразу «Нарисуй красивая природа осени» и отправил сообщение. Получил вот такую картинку:
Для сохранения картинки после нажатия правой клавиши мыши выбрать пункт меню «Сохранить как...». Проверил, что будет, если еще раз отправить то же самое сообщение-запрос. Получил немного другую картинку:
Далее в чате отправил боту расширенный запрос: «Нарисуй красивая природа осени с озером и красивой девушкой», на что получил такое изображение:
На сегодня бот GigaChat выдает только квадратные картинки. Единственный способ управление генерацией картинок - это пока только формулировки текстовых запросов. Но эта нейросеть развивается.
А какие будут практические выводы предложения?
Предлагаю как себе, так и вам, уважаемые читатели, следующее:
- Несомненно, что полученные картинки возможно использовать для некоторых иллюстраций своих авторских публикаций в интернете.
- Можно выбрать для себя любой сегодняшний интерфейс по душе.
- Далее поэкспериментировать со структурой построения запросов, поскольку это влияет на обучение систем по выбору объектов и связей между ними. Можно попробовать использовать запятые для разделения понятий.
- Можно также поэкспериментировать со стилями, там, где это возможно.
Пробуем новое и удачи всем нам!
Буду благодарен за ваши мнения об этом направлении, является ли это творчеством? А также за комментарии, предложения и обмен опытом!