Привет, друзья! Как автор "вокруг да около" медицинского канала в Дзене, я постоянно балансирую между точностью фактов и красотой подачи. Текст должен быть понятным, а картинка заставлять задержать взгляд. Раньше я честно сидел на фотостоках, но это как ходить в гости к одному и тому же соседу за книгами. Рано или поздно, книги в его библиотеке заканчиваются.
Поэтому я ушел в нейросети. Это кайф: ты можешь нарисовать буквально то, что творится у пациента в голове (или в поджелудочной железе). Но, как это часто бывает в российском IT, дьявол кроется в мелочах. А именно - в табличках на русском языке.
Сегодня разбираем эпичную битву: зарубежные «умницы» против наших отечественных «самородков». Спойлер: будет больно, смешно и местами даже познавательно.
Почему я плюнул на стоки?
Генерация картинок дает уникальные визуалы, которые точно соответствуют теме. Если я пишу про циркадные ритмы, я хочу видеть не стоковую девушку в белом халате, а антропоморфное супрахиазматическое ядро в образе старого часовщика. Да, это звучит безумно, но именно такие иллюстрации цепляют глаз.
Казалось бы, бери и твори. Но не тут-то было.
Испытательный полигон: часы внутри человека
Для чистоты эксперимента я взял промт (запрос) к статье о биологических часах. Описание было максимально детальным: часовщик с лупой, клеточные структуры стен, таблички с названиями органов на русском («ПЕЧЕНЬ», «ПОДЖЕЛУДОЧНАЯ») и требование: «Английский текст исключить».
Раунд 1: Nano Banana (иностра́нка)
Для начала, сделал запрос в Nano Banana для генерации картинки к моей последней публикации о биологических часах в организме человека. Промт получился длинный 2400 символов
Текст: "Создай детализированную, причудливую иллюстрацию интерьера часовой мастерской в мультяшном стиле. Стены и полки выполнены в виде органических клеточных структур, что намекает на то, что они находятся внутри человеческого тела. Каждая поверхность заполнена самыми разнообразными часами, каждый из которых показывает немного разное время (разница составляет 2-7 минут). Включать:
- Старинные водяные часы (клепсидра) с текущей водой.
- Классические часы с кукушкой и маленькой птичкой.
- Современные цифровые светодиодные часы со светящимися цифрами.
- Песочные часы, из которых сыплется песок.
- Несколько аналоговых настенных часов с римскими цифрами.
- Биологические часы с узорами спиралей ДНК.
Все часы снабжены маленькими табличками на русском языке с такими надписями, как “ПЕЧЕНЬ”, "ПОДЖЕЛУДОЧНАЯ”, “СЕРДЦЕ”, “КОЖА”, указывающими на то, какие внутренние часы органа они представляют. Основные часы за прилавком помечены надписью “МАТЕМАТИЧЕСКОЕ время” и показывают правильное время.
В центре, за старым деревянным прилавком, стоит антропоморфное супрахиазматическое ядро – жизнерадостный старый часовщик с белой бородой, в круглых очках, с лупой на одном глазу и в традиционном фартуке часовщика. Он понимающе улыбается, положив руки на прилавок. Табличка под прилавком " Все часы идут верно, но каждые по-своему"
Общая атмосфера теплая, уютная и немного волшебная. Дизайн очень детализированный, красочный, со смесью стимпанка и биологического искусства. Весь текст и надписи на изображении должны быть на русском языке. Английский текст исключить."
Нано Банана даже не поперхнулась и восприняла такой длинный промт И вот , что сгенерировала:
Не берусь судить о художественной ценности этой иллюстрации, но следование промту здесь почти идеально, но обратимся к Шедевруму, уж он-то сделает картинку идеальной
Раунд 2: «Шедеврум» (гордость отечества)
Начал с большого промта. «Шед» просто обрезал его, выдав абстрактную полку с часами. Пришлось ужать текст до короткой версии:
"Причудливая карикатура на часовую мастерскую внутри организма. Стены увешаны часами: водяными часами, часами с кукушкой, цифровыми светодиодными часами, песочными часами. Каждый из них показывает немного другое время, обозначенное на русском языке: “ПЕЧЕНЬ", “ПОДЖЕЛУДОЧНАЯ ЖЕЛЕЗА", “СЕРДЦЕ", “КОЖА". Центральные часы за прилавком: “СУПРАХИАЗМАТИЧЕСКОЕ ЯДРО". Пожилой часовщик с белой бородой, в круглых очках, фартуке, понимающе улыбается. Надпись на прилавке на русском языке: “ВСЕ ЧАСЫ ИДУТ ПРАВИЛЬНО, НО КАЖДЫЙ ПО-СВОЕМУ”. Теплый, детализированный, красочный. Весь текст на русском языке. Английский язык исключи".
Вот, что по этому урезанному промту сделала Нано Банана:
Перейдем в "Шедеврум" с тем же коротким промтом:
Раунд 3: «Гига Чат» и «Кандинский»
Решил не останавливаться на достигнутом и полез в другие отечественные сервисы. Удивление было колоссальным, когда я обнаружил, что «Кандинский» внутри себя использует тот же «Гига Чат». Логика разработчиков, видимо, была: «Если нельзя победить баги, давайте их продублируем».
С русским текстом здесь чуть получше, чем у «Шедеврума», но тексты, по прежнему,- заведомо проигрышная лотерея. Набор букв, напоминающих кириллицу после удара током.
Гига Чат, пропущенный через Кандинского:
«Айболит» среди нейросетей: лечим слепоту к родному языку
Почему же российские нейросети, обученные на миллионах картинок, упорно рисуют каракули вместо букв?
- Болезнь внимания (или его отсутствие). Большие зарубежные модели (как Nano Banana) обучены на датасетах, где тексту на изображениях уделяется отдельное внимание. Наши модели пока работают по принципу «главное - красивая картинка, а что там написано, разберетесь по контексту».
- Внутренняя цензура. Случай с «Шедеврумом» - это отдельный вид искусства. Он боится слов «больной» и «кровать» больше, чем огня. Промт «больной мальчик в кровати» для него страшнее фигуры Трампа в доспехах спартанца в битве при Фермопилах. Сеть не просто отказывается рисовать, она защищает наши неокрепшие психики от ужасов реальности. Но почему при этом страдает грамматика, остается загадкой.
- Форматы и конвертации. Если вы еще не сталкивались: «Шедеврум» и «Гига Чат» упорно генерируют картинки в формате JFIF. Дзен этот формат не любит. Приходится конвертировать файлы. Слава, Богу таких ресурсов много. Но это все равно как купить пирожное в красивой упаковке, а потом полчаса отковыривать скотч, чтобы до него добраться.
Что в сухом остатке?
Если вам нужно качество текста и следование промту, пока что зарубежные инструменты вне конкуренции. Да, они не всегда понимают специфику «наших реалий», но русский язык в картинках они знают лучше некоторых россиян.
Если же вы генерируете картинки для души, где текст не важен или вы готовы дописывать его в фотошопе «Шедеврум» выдает отличную эстетику (пока не попросишь подписать печень).
В заключении еще немного шедеврального юмора
Это иллюстрация к моей статье на Дзене "Еда, живая и не очень." А надпись на плакате задумана как "Нет пенсиям" Но у Шедеврума свое мнение как это должно быть написано. Те, кто немного знакомы с английским поймут, что "No penis on" и "Нет пенсиям" -"две большие разницы"
А как у вас дела с нейросетями? Сталкивались с тем, что «Шедеврум» вместо русского текста рисует суахили? Или знаете лайфхак, как заставить его читать промт до конца? Делитесь в комментариях - устроим мозговой штурм по реабилитации наших нейросетей!
#нейросети #генерацияизображений #русскийязык #шедеврум #гигачат #кандинский #nanobanana #дзен #автордзен #созданиеконтента #иллюстрации #нейросеть #промты #медицинскийблог #юмор #искусственныйинтеллект #текствкартинках #багинейросетей