Найти в Дзене
Мир вокруг и мы

Тестируем, как понимает запросы и создает рисунки российская модель ИИ в обновленной версии Kandinsky 3.0

Недавно узнал, что вышла новая 3-я версия русскоязычной модели Kandinsky (Russian DALL-E) искусственного интеллекта (ИИ) для рисования изображений по текстовым запросам. Переход в браузере ПК на сайт сервиса Kandinsky 3. 0 здесь.

Решил потестировать на новогоднюю тему наступающего 2024 года - года Дракона. Принцип работы внешне простой: вводим текст запроса-описания желаемой картинки и получаем ответ в виде изображения по запросу, как его интерпретирует (понимает) система.

По прочтению статьи можете сами попробовать что-то создать для себя на любую тему.

Попробуем на примере. Для тестирования написал такой текст запроса: «Новогодний дед мороз руки в варежках, один большой китайский дракон в правом углу, дед мороз показывает рукой на одного большого китайского дракона, задний фон - зимний лес, лес украшен гирляндами, вверху стрелки часов, стрелки показывают без 5 минут 12».

Ввел текст, задал формат и разрешение рисунка, стиль генерации (можно сначала и без стиля попробовать).

Рис.1. Ввод данных запроса на создание рисунка
Рис.1. Ввод данных запроса на создание рисунка

По кнопке «Отправить» сначала проверяется, что я живой человек, а не робот - ползунком переворачиваем картинку в читаемое положение. При отпускании ползунка запрос уходит в систему (Рис.2).

Рис.2. Подтверждение запроса от клиента
Рис.2. Подтверждение запроса от клиента

На время генерации нам выдается промежуточный экран с данными запроса (Рис.3). Генерация рисунка, если все нормально, идет недолго - несколько секунд.

Рис.3. Промежуточный экран
Рис.3. Промежуточный экран

В итоге получаем следующий экран с картинкой (Рис.4):

Рис.4. Картинка по запросу
Рис.4. Картинка по запросу

Вроде бы, все есть, что просил, но мне пока не очень это понравилось.

ПРИМЕЧАНИЯ:

  1. Здесь можно поставить лайк или дизлайк. Эта обратная связь поможет «научить» программу, как лучше генерировать/ не генерировать в будущем.
  2. Можно поделиться картинкой в социальных сетях.
  3. Можно скачать результат на свой ПК.
  4. Можно попробовать сделать еще раз по тому же запросу.

Попробую запустить еще раз с немного измененным запросом.

Рис.5. Другой вариант картинки
Рис.5. Другой вариант картинки

И еще один вариант, далее загруженный на ПК (Рис.6).

Рис.6. Еще один вариант генерации
Рис.6. Еще один вариант генерации

Честно говоря, пока шедевров я не получил. А после нескольких попыток (более 10-ти) программа увеличила ожидаемое время до минуты и вообще зависла, ничего не генерируя, и даже кнопка «Обновить» не помогает.

Текущие выводы по конкретному примеру

  1. При одном и том же запросе выполняются различные генерации картинок. Можно повторять и скачивать на ПК варианты, которые понравятся.
  2. Программа не понимает, как рисовать кисти человека.
  3. Программа неправильно интерпретирует цифры (с искажением выводит цифры из запроса, например 2024, - пришлось убрать из запроса); не понимает, как показать на часах без 5-ти минут 12) и т. п.
  4. Ненадежная работа: были или сетевой сбой, или перегрузка запросами, или ограничения по числу повторов? - пока непонятно.

Кстати, на более простые запросы рисунки формируются вполне приличные, например, «Новогодний дракон» неплохой получился (Рис.7).

Рис.7. Новогодний дракон
Рис.7. Новогодний дракон

В общем, дорогие читатели, попробуйте сами. Может быть, мы все вместе с одной стороны, "научим" программу, а с другой - сами научимся оптимально составлять запросы. Как говориться, здесь "палка в двух концах".

Пишите о Ваших успехах или задавайте вопросы. Обсудим, проверим.

С наступающим 2024 годом!