Найти тему
Мир вокруг и мы

Тестируем российскую нейросеть ruDALL-E, создающую оригинальные изображения по текстовым запросам

Оглавление

Тема для этой статьи навеяна статьей Артура Тагирова «Нейросеть, которая создает уникальные изображения». Я поделюсь некоторыми результатами тестирования и своими предложениями по запуску и работе с этим сервисом под кратким названием ruDALL-E.

Немного общих пояснений

DALL-E — это название нейронной сети, которую разрабатывает американская научно-исследовательская лаборатория искусственного интеллекта (ИИ) OpenAI. Одним из основателей OpenAI является предприниматель Илон Маск. Одной из функций этой сети является генерирование высококачественных изображений, на основе текстовых описаний на английском языке, как указано в Википедии.

ruDALL-E– это российская разработка нейронной сети. Нейросеть разработали и обучили исследователи Sber AI и SberDevices при партнёрской поддержке ученых из Института искусственного интеллекта AIRI.

Нам с вами имеет смысл попробовать новую модель из сервиса ruDALL-E под названием Kandinsky 2.0. Как пишут разработчики, «мы решили создать мультиязычную text-to-image диффузионную модель Kandinsky 2.0, которая понимает запросы более чем на 100 языках! И главное, на русском».

Как работать с российской ruDALL-E

Наша текущая задача тестирования – генерировать уникальные изображения по текстовым запросам на русском языке. Будем использовать новую версию под названием Kandinsky 2.0. Ссылка на сервис: https://rudalle.ru/kandinsky2

Рис.1. Начальный экран новой модели Kandinsky 2.0
Рис.1. Начальный экран новой модели Kandinsky 2.0

На начальном экране (Рис.1) заполняем белые поля ввода, как указано, например на Рис.2, и нажимаем кнопку "Отправить".

Рис.2. Пример заполнения начального экрана
Рис.2. Пример заполнения начального экрана

Если запрос прошел нормально, то появляется экран сообщения, как на рисунке 3, иначе программа попросит вас повторить запрос.

Рис.3. Сообщение о принятии запроса на обработку
Рис.3. Сообщение о принятии запроса на обработку

В сообщении указаны все наши исходные данные. Я изменил разрешение, предлагаемое по умолчанию (выбрал из списка 768 на 512), а стиль не выбирал. Подождем несколько минут и получим сгенерированное изображение (Рис.4). Красиво и необычно сгенерировалось. Вот так нас "понял" "Искусственный интеллект" по нашему текстовому запросу. Дед мороз тоже из заячье породы получился 😊.

Рис.4. Сгенерированное изображение без указания стиля
Рис.4. Сгенерированное изображение без указания стиля

Что еще есть интересного в российской ruDALL-E

Если посмотреть на верхнюю строку меню, то можно провести тот же эксперимент с двумя более ранними моделями в ruDALL-E (выделено на Рис.6).

Рис.6. Предыдущие две модели генерации изображений
Рис.6. Предыдущие две модели генерации изображений

А еще можно формировать по текстовым запросам разные смайлики по меню Emojich (Рис.7).

Рис.7. Пример запроса на создание смайликов
Рис.7. Пример запроса на создание смайликов

Я запрашивал смайлики в модели Kandinsky 2.0, и неожиданно получил сообщение, что на это потребуется целый час времени, вместо пары минут для изображений (Рис.8)! Скорее всего, для смайликов нужно использовать другую пару моделей. Можете сами это проверить. А от запроса всегда можно отказаться по кнопке "Отменить запрос".

Рис.8. Неожиданное сообщение про время генерации смайликов
Рис.8. Неожиданное сообщение про время генерации смайликов

Я дождался и получил вот такой набор смайликов (Рис.9):

Рис. 9. Набор смайликов по запросу "Я очень занят"
Рис. 9. Набор смайликов по запросу "Я очень занят"

Также вы можете протестировать в модели Kandinsky 2.0 влияние на формирование изображений различных стилей генерации, выбираемых из списка (см. Рис.1). Результаты моего тестирования нескольких стилей на примере запроса "Заяц и Дед Мороз в зимнем снежном лесу" показаны в нижележащей галерее (листайте изображения по горизонтали по кнопкам слева и справа).

Этот сервис, несомненно, представляет интерес. Буду благодарен за любые комментарии к статье, особенно за комментарии, содержащие ваши результаты тестирования и реального применения этого сервиса.

Можете передать ссылку на эту статью своим знакомым, кому может быть интересно применение таких технологий. Буду также благодарен всем новым подписчикам моего канала.

И еще раз благодарю автора начальной статьи (по крайней мере для меня) Артура Тагирова про сервис ruDALL-E, которая вдохновила меня продолжить исследования по этой теме.

До новых встреч, ваш Юрий Щербаков!