519 подписчиков

Не "Кандинским" единым: российская нейросеть TurboText и её таланты. Часть 1

10 апреля 202410 апр 2024

7 мин

Оглавление

Создание изображения
Изменение стиля
Увеличение фото

Обычно я рассказываю о нейросетях, которыми можно более или менее полноценно пользоваться бесплатно. Большая часть из популярных сегодня сервисов — зарубежные, поэтому я не вижу смысла останавливаться на платных. Не потому, что у читателей не хватит денег на подписку, а потому, что для большинства сейчас технически невозможно (или, как минимум, затруднительно) провести международный платёж.

Нейросеть TurboText в этом смысле является исключением. Как и другие стартапы, за чьими спинами не маячат техно- или финансовые гиганты, этот сервис просит денег за свои услуги. Но, во-первых, денег совсем небольших, а, во-вторых, TurboText — российский проект со счётом в российском банке, так что оплатить подписку не составит труда.

TurboText, как следует из названия, специализируется на создании текстов, но не только. Это многофункциональный генератор контента, с перечнем возможностей которого можно ознакомиться прямо на главной странице сайта. Меня же в нём интересует в основном работа с изображениями — о ней и поговорим.

В принципе, этой нейросетью можно пользоваться бесплатно, если вам хватит двух запросов в день — столько TurboText предлагает каждому новому пользователю. Какое-то время и мне их хватало, а потом захотелось покопаться в нейросети поглубже, тем более что с момента нашего первого знакомства прошло уже много времени. Сейчас сервис предлагает удобный веб-интерфейс с большим количеством функций, по виду полезных:

Интерфейс увеличителя изображений TurboText

Так что мне было не жалко потратить 235 рублей на тариф ProImage: он позволяет сгенерировать 150 изображений (либо выполнить 150 операций по их обработке, что практически одно и то же) и ещё задать сто вопросов местному ИИ-справочнику Всезнайке.

Рассказывать здесь об интерфейсе TurboText нет необходимости: заботливые разработчики подготовили целых две подробных статьи-инструкции. Одна описывает процесс генерации картинок, вторая объясняет, как пользоваться инструментами их обработки. Это не считая вороха наглядных подсказок в самом интерфейсе. Поэтому я просто перепробую все инструменты и режимы по очереди и проверю собственноручно, как тут всё работает.

Сегодня поизучаю первые пять режимов: создание изображений, изменение стиля, увеличение картинок, добавление объектов и вырезание их из фона, а остальные разберу во второй публикации через пару дней.

Создание изображения

Первая функция в списке — генерация изображения по тексту. В дополнительном меню для этого режима можно выбирать разные художественные стили и разные версии нейросети (модели) под них.

Попробую сгенерировать несколько сюжетов и начну... да хоть с этого:

мужчина в клетчатой рубашке и комбинезоне держит на руках козлёнка на фоне сельского пейзажа, солнечный день, лето.

Если бы не сросшиеся руки, было бы просто отлично. Но с руками, как мы занем, проблемы вообще у всех, так что здесь ругать TurboText бессмысленно. Поэтому лучше потестировать другие сюжеты, без акцента на руках, но с использованием разных стилей и моделей:

Дайвер встречает акулу, стиль по умолчанию (реализм), TurboText

Маленький забавный крокодил ест мороженое в парке на скамейке, стиль по умолчанию (реализм), TurboText

Маленький забавный крокодил ест мороженое в парке на скамейке, стиль обработки —мультяшный, версия нейросети — v1, TurboText

Судя по результатам, не все стили удаются TurboText одинаково хорошо. Фотографировать нейросеть умеет намного лучше, чем рисовать: фотореалистичные изображения получаются очень убедительно (особенно меня впечатлил крокодил). С рисунками всё не так радужно. Некоторые из них можно попробовать дополнительно обработать в улучшателях вроде Universal Upscaler от Leonardo или Enhancer от KREA, но вот тому же крокодилу, только рисованному, уже вряд ли что-то поможет.

С точностью выполнения запроса тоже иногда возникают проблемы, причём это видно даже по картинкам, которые команда TurboText создала для собственной же инструкции.

Модель v5 для создания логотипов и постеров с текстом сгенерировала мне сразу по 4 варианта картинки, как с текстом, так и без него. Как пользоваться версией v5, чтобы на рисунках всегда появлялся нужный текст, не совсем понятно — здесь инструкцию приложить забыли .

Не то чтобы у меня было право ставить оценки, но чисто субъективно, на основе сравнения с другими нейросетями, режим генерации получает 6/10.

Изменение стиля

Для тестирования режима изменения стиля я использую уже созданную картинку с фермером-козоводом. Возможности этого режима буду испытывать методом тыка: сначала попытаюсь перенести действие из лета в зиму, а потом применю к изображению пару разных специфичных художественных стилей. Разработчики советуют в качестве подсказки вводить лаконичное "стиль такой-то", но я попробую использовать и полное описание картинки с нужными мне изменениями:

Текст: мужчина в тёплой одежде держит на руках козлёнка на фоне сельского пейзажа, зима, пасмурный день. TurboText

В целом между разными типами подсказок разницы мало. Во всех случаях смены сезона зима получилась какая-то тёплая и бесснежная, солнце по-прежнему светит, хоть и не так ярко, одежда поти не поменялась, зато фермер произвольно меняет расу, а козёл Лунтик отращивает вторую пару ушей. Что касается художественной стилизации, акварелька получилась хорошо; с аутентичностью Рембрандта можно поспорить, но попытка засчитана.

Другая исходная картинка: сгенерированный самим же ТурбоТекстом несколько месяцев назад кот. Я хочу перекрасить его в белый и добавить падающий снег, а потом поменять жанр самого изображения на киберпанк.

Изменение стиля в TurboText. Текст: белый кот, падает снег

Изменение стиля в TurboText. Текст: стиль киберпанк.

Снег на второй картинке вроде бы пошёл, а кот как был полосатым, так и остался. Что до киберпанк-кота, мне вообще было страшно это чудище вам показывать, но вы должны знать правду. Интересный факт: если уменьшить картинку (или отойти от неё подальше), в этом кибермесиве становится явственно виден исходный кот без искажений. Забавная оптическая иллюзия, которая немножко проливает свет на то, как работают алгоритмы.

В общем, TurboText воспроизводит картинки хорошо, но стили меняет на 5/10.

Увеличение фото

Для проверки этой функции я возьму одну старую картинку "Шедеврума", одну новую картинку "Кандинского" и одну специально замыленную фотографию.

Ранний "Шедеврум" был выбран для опытов потому, что год назад он генерировал такие вот грубо прорисованные изображения, больше похожие на эскизы. В них есть только намёки на детали, много конструктивных ошибок и никакой резкости. Увеличение от TurboText сработало примерно так же, как аналогичный инструмент от Pixelcut: увеличилась резкость, исчез шум (или то, что нейросеть приняла за шум), но никаких новых деталей не добавилось.

С этой иллюстрацией от "Кандинского всё ещё проще: она изначально хорошего качества, поэтому TurboText прост увеличил линейные размеры (ну и дополнительно подкрутил резкость, чтоб было).

А теперь усложним эксперимент. У меня есть стоковая фотография кота, которую я намеренно сожму до появления артефактов, а потом увеличу обратно с помощью TurboText. На фото кот помещался полностью, но я кадрирую его, чтобы было лучше видно детали:

Сильно сжатая исходная фотография, полные размеры — 400х629 пикселов.

Результат увеличения с TurboText. Полные размеры — 1600х2516 пикселов.

Оригинальная фотография до сжатия. Полные размеры — 1271х2000 пикселов.

Нейросеть справилась очень достойно. Конечно, степень детализации исходника не вернулась, но вы посмотрите, с чем ей пришлось работать. К тому же новая фотография стала даже больше оригинала.

Резюме: хороший увеличитель, очень пригодится в работе, беру. 10/10

Добавление объекта

Добавление объекта в TurboText работает не так, как вы могли бы подумать, если вы знакомы с режимом Inpaint в других нейросетях. В режиме Inpaint большая часть изображения остаётся нетронутой; точечно изменяется только то, что необходимо, а для этого используется кисть. Здесь рисовать по картинке нельзя — можно только описать текстом, что именно вы хотите добавить. Поэтому в процессе обработки вся картинка перерисовывается заново, и результат имеет только отдалённое сходство с исходником.

Добавление объектов, TurboText. Текст: бриллиантовая диадема и колье.

Можно попробовать зафиксировать зерно (seed) изображения, но даже в этом случае стопроцентного совпадения с исходником не получится:

Добавление объектов, TurboText. Текст: бриллиантовая диадема и колье, использовалось то же число зерна (seed). Лицо девушки вроде бы похоже, но картинка совсем другая.

В общем, "добавление объекта" здесь — попросту некорректное описание инструмента. Поэтому 5/10.

Удаление фона

Ещё одна очень полезная штука, которая может здорово сэкономить время — при условии, что работает хорошо. Я попробую вырезать из фона несколько объектов и помещу каждый на однотонное серое поле, чтобы ясно было видно качество обтравки.

Номер первый: стоковая фотография высокого разрешения, на которой у объекта чёткие границы:

Результат вырезания объекта из фона, TurboText

Получилось отлично! Теперь задача сложнее: ещё одна старая генерация "Шедеврума" с сильным шумом и нечёткими границами объекта:

Опять отлично сработано. Там, где крем и пламя свечи были сильнее всего размыты, остался тонкий тёмный контур, но это мелочи. Не каждый человек справился бы с этой работой так же хорошо, не говоря уже о скорости.

Напоследок — ещё одна генерация "Шедеврума" с большим количеством мелких деталей и внутреннего пространства между ними, которое тоже надо удалить:

Супер. Нейросеть заслужила аплодисменты. Обязательно буду пользоваться этим инструментом в работе. Это заслуженные 10/10!

Итог: за сегодня обнаружилось как минимум два очень ценных умения TurboText, которые могут сильно облегчить жизнь дизайнерам и контентщикам, и ещё несколько, чтобы просто развлечься. Что представляют из себя оставшиеся четыре инструмента и насколько они хороши, посмотрим в следующий раз, во второй части.