...и на машинке вышивать умеет
Знакомьтесь - новый конкурент "Кандинскому" и "Шедевруму": ещё одна почти отечественная разработка, нейросетевая модель TurboText. Познакомились мы с ним случайно, по объявлению. Рекламному. В контекстной рекламе Яндекса. Совершенно невозможно было пройти мимо и не поинтересоваться, что это такое.
Пусть вас не смущает название: несмотря на то что основным видом деятельности TurboText является создание и проверка текстов, он умеет и много чего ещё - в том числе генерировать изображения.
Как и две упомянутые модели, TurboText понимает русский язык, чем и ценен. Да, текстовый генератор основан на ChatGPT, а генератор изображений - на Stable Diffusion (а кто нет?..) с доучиванием на Midjourney (а как же иначе!..), но это обычное дело для разработки нейросетевых моделей. Дорабатывается-то TurboText резидентами Сколково, компанией "ТурбоТекст" - а значит, вполне уже может считаться отечественным ИИ.
Рассказать о нём лучше разработчиков не сможет никто. Поэтому если вы заинтересовались, стоит перейти на сайт проекта и вдумчиво почитать огромную и подробную инструкцию к этому чуду кибермысли. Можете даже делать заметки, как я.
У ребят пока не дошли руки создать полноценный веб-интерфейс, так что сейчас приходится пользоваться телеграм-ботом, а в нём не получается красиво и упорядоченно расположить все настройки, не утомляя пользователя бесконечными переходами от кнопки к кнопке. Поэтому для тонкой калибровки запроса придётся изучить основы кодерского языка. Впрочем, и без этого модель вполне работоспособна.
Если вас не пугает необходимость дописывать к запросам команды типа "width: 1024, height: 1024" или "seed: 123456789", то в теории вы сможете освоить TurboText до такой степени, чтобы получать на выходе желаемый результат, а не что попало - модель предлагает довольно много настроек. Всё же хочется верить, что в будущем модификаторы и прочие инструменты можно будет использовать без танцев с бубнами, простым щелчком по кнопке.
В дополнение к стандартным стилям генерации (анимация/аниме, кинематографический стиль, фотореализм, киберпанк, стимпанк) модель предлагает 79 (семьдесят девять!) различных художественных стилей, основанных на работах конкретных живописцев и графиков - полный список приведён в статье-инструкции. Хорошо, если их имена вам о чём-то говорят. Если нет - к названиям стилей добавлены краткие разъяснения, какого результата ждать от использования каждого из них. Сочинитель инструкции к концу списка устал от этих описаний настолько, что к именам художников Zdzisław Beksiński, Wayne Barlowe, Arthur Rackham и Dariusz Zawadzki просто добавил весьма исчерпывающе, что в этих стилях модель сгенерирует "всякое стрёмное".
Помимо 8 основных и 79 художественных стилей, модель предлагает возможность увеличения изображений до 4096х4096 пикселов, при том что нейросети Сбера и Яндекса так масштабно мыслить пока не умеют.
Общую чудесную картину несколько портит тот факт, что бесплатно можно создать всего 10 изображений. Потом разработчики (скромно по нынешним временам) просят сто рублей за сто следующих генераций - то есть по рублю за генерацию, причём бот будет выдавать вам уже по два варианта картинки, а не по одному.
Следующий тариф - 150 рублей - включает сто генераций картинок и тридцать - текстов, всё в одном флаконе.
Дальше происходит гиперпространственный прыжок до таксы аж в 5000 рублей, но за эти деньги вам полагается целых 10000 (десять тысяч) картинок и 3000 (три тысячи) текстов, то есть или по 50 копеек за картинку, или по рубль шестьдесят семь за текст, или... сами посчитайте смешанный тариф.
Стоит ли платить за TurboText при живых и пока бесплатных "Кандинском" и "Шедевруме", если вам нужен только генератор изображений? Попробуйте первые десять картинок бесплатно, сравните, поделитесь впечатлениями.
У меня чувства пока смешанные. Если ещё совсем недавно TurboText мог впечатлить реализмом, то после обновлений "Кандинского" до версии 2.2 и "Шедеврума" до версии 0.5.0 ему, пожалуй, придётся немного поднатужиться.
Для начала хотя бы уяснить, что "портрет" - это необязательно лицо человека:
..."искры" - необязательно "бенгальский огонь", а "парить в воздухе" означает "не касаться поверхностей":
Не помешает и настроить параметры так, чтобы они работали, как заявлено. Например, чтобы стиль cartoon, усиленный стилем Zac Retz (поищите в интернете работы этого художника) создавал всё же двумерную графику, а не фото:
Стиль anime тоже, по-моему, должен выглядеть немного не так (не говоря уже о весёлых клоунах):
Ещё неплохо было бы разобраться с цветами:
Но в целом TurboText - довольно продвинутая модель. Повторюсь: совсем недавно её результаты были на голову выше результатов "Кандинского" и "Шедеврума", и кто знает, что случится с ней после следующего обновления. Соревноваться с такими гигантами, как Сбер и Яндекс, очень непросто, но TurboText отважно пытается это делать. Пожелаем ребятам успехов.