Найти в Дзене
www1.ru

Теперь умеет по-русски: Kandinsky Image научился генерировать изображения с надписями на кириллице

Оглавление

Нейросеть научилась писать без ошибок и на любых поверхностях

Сбер выпустил обновление модели генерации изображений Kandinsky, которая теперь умеет генерировать надписи на кириллице с учётом текстуры поверхностей.

Разработчики обучили нейросеть, используя более 10 миллионов изображений с русским текстом, написанным различными способами. Это позволило модели научиться различать печатные и прописные буквы.

Сначала Kandinsky обучался генерировать кириллический текст нативно, без использования дополнительных модулей, а потом его дообучили на экспертном датасете, тщательно отобранном и проверенном дизайнерами и художниками.

У новой модели все ещё возникают трудности в ряде категорий запросов — длинные надписи, надписи со смесью кириллицы и латиницы, подробное детальное описание сущности или фона могут получаться не с первого раза. Короткие запросы без указания фона, масштаба и ракурса получаются быстрее и качественней, но тут модель будет фантазировать сама, что, впрочем, часто только к лучшему.

Указание текстуры и освещения помогает создать интересные вариации надписей — камни, вода, лёд, стекло, мармелад, старая древесина, мох, лаковая кожа, глянцевый стол. Буквам можно добавить рельеф или объём. Для прозрачных фактур можно указать «контровой свет», «контражур» — буквы станут полупрозрачными. А для эффектности можно добавить дым или туман.

Потестировать модель самостоятельно уже можно в Telegram-боте Kandinsky и во всех ботах GigaChat (Telegram, ВКонтакте, Одноклассники, Max), а также в web-версии.

Мы тоже попробовали и результат нам понравился.

Читайте ещё материалы по теме: