Найти в Дзене
Дзен кладовка

Русский для нейросети: почему «Шедеврум» пишет иероглифы, а «ГигаЧат» начинает по-русски, а заканчивает византийским...

Привет, друзья! Как автор "вокруг да около" медицинского канала в Дзене, я постоянно балансирую между точностью фактов и красотой подачи. Текст должен быть понятным, а картинка заставлять задержать взгляд. Раньше я честно сидел на фотостоках, но это как ходить в гости к одному и тому же соседу за книгами. Рано или поздно, книги в его библиотеке заканчиваются. Поэтому я ушел в нейросети. Это кайф: ты можешь нарисовать буквально то, что творится у пациента в голове (или в поджелудочной железе). Но, как это часто бывает в российском IT, дьявол кроется в мелочах. А именно - в табличках на русском языке. Сегодня разбираем эпичную битву: зарубежные «умницы» против наших отечественных «самородков». Спойлер: будет больно, смешно и местами даже познавательно. Генерация картинок дает уникальные визуалы, которые точно соответствуют теме. Если я пишу про циркадные ритмы, я хочу видеть не стоковую девушку в белом халате, а антропоморфное супрахиазматическое ядро в образе старого часовщика. Да, это
Оглавление

Привет, друзья! Как автор "вокруг да около" медицинского канала в Дзене, я постоянно балансирую между точностью фактов и красотой подачи. Текст должен быть понятным, а картинка заставлять задержать взгляд. Раньше я честно сидел на фотостоках, но это как ходить в гости к одному и тому же соседу за книгами. Рано или поздно, книги в его библиотеке заканчиваются.

Поэтому я ушел в нейросети. Это кайф: ты можешь нарисовать буквально то, что творится у пациента в голове (или в поджелудочной железе). Но, как это часто бывает в российском IT, дьявол кроется в мелочах. А именно - в табличках на русском языке.

Сегодня разбираем эпичную битву: зарубежные «умницы» против наших отечественных «самородков». Спойлер: будет больно, смешно и местами даже познавательно.

Почему я плюнул на стоки?

Генерация картинок дает уникальные визуалы, которые точно соответствуют теме. Если я пишу про циркадные ритмы, я хочу видеть не стоковую девушку в белом халате, а антропоморфное супрахиазматическое ядро в образе старого часовщика. Да, это звучит безумно, но именно такие иллюстрации цепляют глаз.

Казалось бы, бери и твори. Но не тут-то было.

Испытательный полигон: часы внутри человека

Для чистоты эксперимента я взял промт (запрос) к статье о биологических часах. Описание было максимально детальным: часовщик с лупой, клеточные структуры стен, таблички с названиями органов на русском («ПЕЧЕНЬ», «ПОДЖЕЛУДОЧНАЯ») и требование: «Английский текст исключить».

Раунд 1: Nano Banana (иностра́нка)

Для начала, сделал запрос в Nano Banana для генерации картинки к моей последней публикации о биологических часах в организме человека. Промт получился длинный 2400 символов

Текст: "Создай детализированную, причудливую иллюстрацию интерьера часовой мастерской в мультяшном стиле. Стены и полки выполнены в виде органических клеточных структур, что намекает на то, что они находятся внутри человеческого тела. Каждая поверхность заполнена самыми разнообразными часами, каждый из которых показывает немного разное время (разница составляет 2-7 минут). Включать:

- Старинные водяные часы (клепсидра) с текущей водой.
- Классические часы с кукушкой и маленькой птичкой.
- Современные цифровые светодиодные часы со светящимися цифрами.
- Песочные часы, из которых сыплется песок.
- Несколько аналоговых настенных часов с римскими цифрами.
- Биологические часы с узорами спиралей ДНК.

Все часы снабжены маленькими табличками на русском языке с такими надписями, как “ПЕЧЕНЬ”, "ПОДЖЕЛУДОЧНАЯ”, “СЕРДЦЕ”, “КОЖА”, указывающими на то, какие внутренние часы органа они представляют. Основные часы за прилавком помечены надписью “МАТЕМАТИЧЕСКОЕ время” и показывают правильное время.

В центре, за старым деревянным прилавком, стоит антропоморфное супрахиазматическое ядро – жизнерадостный старый часовщик с белой бородой, в круглых очках, с лупой на одном глазу и в традиционном фартуке часовщика. Он понимающе улыбается, положив руки на прилавок. Табличка под прилавком " Все часы идут верно, но каждые по-своему"

Общая атмосфера теплая, уютная и немного волшебная. Дизайн очень детализированный, красочный, со смесью стимпанка и биологического искусства. Весь текст и надписи на изображении должны быть на русском языке. Английский текст исключить."

Нано Банана даже не поперхнулась и восприняла такой длинный промт И вот , что сгенерировала:

Простите за ошибку в табличке внизу. Не каждый, а каждые. Но это моя вина. Для объективности оставил эту ошибку везде.
Простите за ошибку в табличке внизу. Не каждый, а каждые. Но это моя вина. Для объективности оставил эту ошибку везде.

Не берусь судить о художественной ценности этой иллюстрации, но следование промту здесь почти идеально, но обратимся к Шедевруму, уж он-то сделает картинку идеальной

Раунд 2: «Шедеврум» (гордость отечества)

Начал с большого промта. «Шед» просто обрезал его, выдав абстрактную полку с часами. Пришлось ужать текст до короткой версии:

"Причудливая карикатура на часовую мастерскую внутри организма. Стены увешаны часами: водяными часами, часами с кукушкой, цифровыми светодиодными часами, песочными часами. Каждый из них показывает немного другое время, обозначенное на русском языке: “ПЕЧЕНЬ", “ПОДЖЕЛУДОЧНАЯ ЖЕЛЕЗА", “СЕРДЦЕ", “КОЖА". Центральные часы за прилавком: “СУПРАХИАЗМАТИЧЕСКОЕ ЯДРО". Пожилой часовщик с белой бородой, в круглых очках, фартуке, понимающе улыбается. Надпись на прилавке на русском языке: “ВСЕ ЧАСЫ ИДУТ ПРАВИЛЬНО, НО КАЖДЫЙ ПО-СВОЕМУ”. Теплый, детализированный, красочный. Весь текст на русском языке. Английский язык исключи".

Вот, что по этому урезанному промту сделала Нано Банана:

Меньше деталей, хуже реализована задумка (все часы по задумке д.б. показывать ПРИБЛИЗИТЕЛЬНО одно и тоже время. Но в целом отлично
Меньше деталей, хуже реализована задумка (все часы по задумке д.б. показывать ПРИБЛИЗИТЕЛЬНО одно и тоже время. Но в целом отлично

Перейдем в "Шедеврум" с тем же коротким промтом:

Т.е. если в запросе есть запрет, типа: "Никакого английского" будет "Греческий"
Т.е. если в запросе есть запрет, типа: "Никакого английского" будет "Греческий"

Раунд 3: «Гига Чат» и «Кандинский»

Решил не останавливаться на достигнутом и полез в другие отечественные сервисы. Удивление было колоссальным, когда я обнаружил, что «Кандинский» внутри себя использует тот же «Гига Чат». Логика разработчиков, видимо, была: «Если нельзя победить баги, давайте их продублируем».

С русским текстом здесь чуть получше, чем у «Шедеврума», но тексты, по прежнему,- заведомо проигрышная лотерея. Набор букв, напоминающих кириллицу после удара током.

Тут с русским чуть получше
Тут с русским чуть получше

Гига Чат, пропущенный через Кандинского:

Тут с русским тоже не очень.
Тут с русским тоже не очень.

«Айболит» среди нейросетей: лечим слепоту к родному языку

Почему же российские нейросети, обученные на миллионах картинок, упорно рисуют каракули вместо букв?

  1. Болезнь внимания (или его отсутствие). Большие зарубежные модели (как Nano Banana) обучены на датасетах, где тексту на изображениях уделяется отдельное внимание. Наши модели пока работают по принципу «главное - красивая картинка, а что там написано, разберетесь по контексту».
  2. Внутренняя цензура. Случай с «Шедеврумом» - это отдельный вид искусства. Он боится слов «больной» и «кровать» больше, чем огня. Промт «больной мальчик в кровати» для него страшнее фигуры Трампа в доспехах спартанца в битве при Фермопилах. Сеть не просто отказывается рисовать, она защищает наши неокрепшие психики от ужасов реальности. Но почему при этом страдает грамматика, остается загадкой.
  3. Форматы и конвертации. Если вы еще не сталкивались: «Шедеврум» и «Гига Чат» упорно генерируют картинки в формате JFIF. Дзен этот формат не любит. Приходится конвертировать файлы. Слава, Богу таких ресурсов много. Но это все равно как купить пирожное в красивой упаковке, а потом полчаса отковыривать скотч, чтобы до него добраться.

Что в сухом остатке?

Если вам нужно качество текста и следование промту, пока что зарубежные инструменты вне конкуренции. Да, они не всегда понимают специфику «наших реалий», но русский язык в картинках они знают лучше некоторых россиян.

Если же вы генерируете картинки для души, где текст не важен или вы готовы дописывать его в фотошопе «Шедеврум» выдает отличную эстетику (пока не попросишь подписать печень).

В заключении еще немного шедеврального юмора

Это иллюстрация к моей статье на Дзене "Еда, живая и не очень." А надпись на плакате задумана как "Нет пенсиям" Но у Шедеврума свое мнение как это должно быть написано. Те, кто немного знакомы с английским поймут, что "No penis on" и "Нет пенсиям" -"две большие разницы"

-7

А как у вас дела с нейросетями? Сталкивались с тем, что «Шедеврум» вместо русского текста рисует суахили? Или знаете лайфхак, как заставить его читать промт до конца? Делитесь в комментариях - устроим мозговой штурм по реабилитации наших нейросетей!

#нейросети #генерацияизображений #русскийязык #шедеврум #гигачат #кандинский #nanobanana #дзен #автордзен #созданиеконтента #иллюстрации #нейросеть #промты #медицинскийблог #юмор #искусственныйинтеллект #текствкартинках #багинейросетей