17 подписчиков

Главный провал нейросетей: почему ИИ пишет тексты как Чубайс — нечитаемо и с матом?

18 февраля18 фев

8 мин

Мы привыкли, что нейросети обгоняют людей в шахматах, живописи и даже в написании дипломов. Но попросите Midjourney или Kandinsky нарисовать простую табличку «Вход» — и вы получите нечитаемую абракадабру. Я разобрался, почему гениальный алгоритм, оперирующий миллиардами параметров, не может правильно изобразить всего три буквы и как хитрые маркетологи обманывают нас, продавая "кашу" за "нейрографику". Вы просите идеальный пост для соцсетей, а получаете «РШГЛДФЪ ВАТ$Н»? Поздравляю, вы только что стали жертвой цифрового дислексика. Мы выяснили, почему искусственный интеллект с радостью рисует вам девушек с шестью пальцами и с упорством олигофрена пишет вывески на языке демонов, а не по-русски. Спойлер: это не баг, это фича, и разработчики о ней знают, но молчат! Почему бесплатные нейронки выдают в качестве надписей на фотографией нечитаемую кашу из букв? Если воспользоваться платными нейронками - надписи будут нормальными, читаемыми? На самом деле, вы столкнулись не с особенностью беспла

Оглавление

Почему нейросети не могут писать текст?
Что же делать, если нужна картинка с надписью?
Важное различие: распознать или нарисовать

Вы просите идеальный пост для соцсетей, а получаете «РШГЛДФЪ ВАТ$Н»? Поздравляю, вы только что стали жертвой цифрового дислексика. Мы выяснили, почему искусственный интеллект с радостью рисует вам девушек с шестью пальцами и с упорством олигофрена пишет вывески на языке демонов, а не по-русски. Спойлер: это не баг, это фича, и разработчики о ней знают, но молчат! Почему бесплатные нейронки выдают в качестве надписей на фотографией нечитаемую кашу из букв? Если воспользоваться платными нейронками - надписи будут нормальными, читаемыми?

На самом деле, вы столкнулись не с особенностью бесплатных нейросетей, а с фундаментальным ограничением всех современных генераторов изображений, независимо от их стоимости. Тот факт, что в ответ на запрос вы получаете "кашу" из символов вроде «РШГЛДФЪ ВАТ$Н», — это нормальное и ожидаемое поведение для таких моделей, как Kandinsky, Midjourney, DALL-E или Stable Diffusion.

Единственный надежный способ получить на изображении именно ту надпись, которая вам нужна, — это добавить её в графическом редакторе уже после генерации картинки. Нейронки не стали ещё настолько обученными, чтобы даже сейчас, в 2026 г., спустя 4 года с момента появления ChatGPT, несмотря на своё усовершенствование, нахаляву выдавать истинные шедевры. Собаку на лбу они тебе пририсуют, а вот "Даша дура" - однозначно не напишут!

Чтобы не быть голословным, приведу типичный пример. Я захотел на торте написать "Я тебя люблю" - простейший, набивший оскомину, вариант. Отправился туда, что пришло на ум - "Шедеврум". Вот что вышло с первой попытки.

Вышло что-то вроде "Лав Йоу". Я не сдался. Решив достать эту нейросеть, снова и снова скидывал ей новый промт.

На этот раз надпись получилась правдоподобнее, правда, без "я".

В третий раз "я" нейронка не забыла. Последняя буква в надписи косякнулась.

Так делает надписи на тортах кондитер, который что-то занюхал в рукаве на перекуре. Со стороны кажется, что 2 надписи наложились друг на друга. В реале вышла малочитаемая абракадабра.

Изменил задачу - попросил написать на торте имя своей первой бывшей. На русском нейронка писать наотрез отказывалась, имя в транслите написано верно, а вот "я люблю", без "тебя", вышло дважды, точно у кондитера начались не просто глюки. Он потерял чувство верха и низа и не осознавал, что делает. Я потратил бы впустую все 70 халявных токенов, которые "Шедеврум" предоставляет без установленного на смартфоне приложения. Плюнув на всё, я прекратил бесплодные попытки.

Почему нейросети не могут писать текст?

Представьте себе художника, который всю жизнь рисовал пейзажи и портреты, но никогда не учился грамоте. Он может увидеть вывеску с буквами, запомнить их как набор линий и завитков и даже попытаться их скопировать. Но он не сможет осмысленно написать слово, потому что не знает, что линии "А" и "Б" означают разные звуки и должны стоять в определенном порядке. Точно так же работают и нейросети для генерации изображений - так называемые диффузионные модели:

Текст как картинка, а не как смысл. Для нейросети буква — это не символ, а сложный визуальный объект, текстура. Она пытается воспроизвести общую текстуру "букв", но, не понимая правил языка, комбинирует их в бессмысленном порядке.
Сложности с нелатинскими алфавитами. Кириллица, арабская вязь или иероглифы содержат более сложные и разнообразные формы, чем латиница. Нейросети, которые часто обучаются на англоязычном контенте, хуже справляются с воспроизведением этих форм, поэтому каша из символов для кириллицы — еще более распространенная проблема .

Это касается всех генераторов картинок, будь то бесплатный отечественный "Шедеврум" от Яндекса или платная зарубежная Midjourney. Они созданы для рисования, а не для написания текстов.

Что же делать, если нужна картинка с надписью?

Поскольку сама нейросеть с этой задачей не справится, оптимальная стратегия — разделить работу на два этапа.

Генерация фона. Попросите нейросеть создать изображение, на котором впоследствии будет надпись. Чтобы избежать появления случайных символов, лучше вообще не упоминать в запросе текст или использовать абстрактные формулировки.

Пример плохого запроса: "Красивый плакат с надписью 'С Днем Рождения".

Пример хорошего запроса: "Праздничный фон с воздушными шарами и тортом, место для текста, без надписей".

Добавление текста в редакторе. Сохраните полученное изображение и откройте его в любом графическом редакторе. Это может быть профессиональный фотошоп, простой онлайн-редактор Canva, встроенные инструменты вроде "Наложение текста" в сервисах типа CapCut или даже стандартная программа "Paint" на вашем компьютере. Здесь вы сможете написать любой текст красивым и читаемым шрифтом.

Важное различие: распознать или нарисовать

Очень важно не путать два разных действия. Существует множество бесплатных нейросетей, которые превосходно распознают текст на загруженных вами картинках. Они работают по другому принципу и действительно могут:

Извлечь текст из фотографии документа или книги .
Скорректировать ошибки и сохранить форматирование .
Распознать даже рукописный текст, - для них это сложнее.

Эти же нейросети - например, GigaChat, DeepSeek, Gemini, - не смогут его нарисовать с нуля. Они решают обратную задачу: превращают картинку в текст, а не текст в картинку.

Коротко о главном. Вы столкнулись с ситуацией, когда бесплатные нейросети делают ровно то, для чего они предназначены: генерируют изображения, интерпретируя слова как визуальные образы. Текст для них — слишком сложный объект, поэтому они и выдают набор случайных символов, похожих на буквы. Платные модели здесь ничем не лучше — на 2026 г. это общая проблема технологии.

Вам нужно получить изображение с конкретной надписью? Используйте комбинированный подход: создайте фон в нейросети, а текст добавьте самостоятельно в простом редакторе. Это единственный рабочий способ получить качественный и читаемый результат.

Можно ли надпись сгенерировать, вторым этапом, - а потом попросить нейронку, уже в третий раз, соединить эти 2 изображения, поставив надпись на её место? Я пытаюсь использовать ИИ для решения проблемы, которую сам же ИИ и создал.

Всё зависит от того, что вы понимаете под словом «соединить». Вот три варианта развития событий - от плохого к хорошему.

Попросить нейросеть нарисовать текст поверх фона

Если вы загрузите картинки - фон и текст - в нейросеть и напишете запрос: «Объедини эти изображения: поставь вторую картинку с надписью на первую» — скорее всего, вы снова разочаруетесь. Большинство генераторов (Midjourney, Kandinsky, DALL-E) не умеют работать как Фотошоп. Они не вклеивают пиксели, а интерпретируют ваши изображения как референсы.
Нейросеть посмотрит на вашу красивую надпись и подумает: «А, это просто пример того, как должны выглядеть буквы!» — и снова попытается нарисовать их заново. А так как с рисованием букв у неё беда, на выходе вы, с высокой долей вероятности, снова получите ту же самую кашу, плюс искаженный фон.

Попросить нейросеть сделать реставрацию - инпеинтинг

Есть более продвинутый метод, который поддерживают некоторые модели - например, Photoshop с нейросетями или Kandinsky с функцией Inpainting, - дорисовка или замена части изображения. Схема эта оказалась бы идеальной, если бы техника её реализации позволила следующее.

Вы генерируете фон.
В фотошопе вы сами примерно накладываете текст - чтобы он был там, пусть криво, но в нужном месте.
Вы загружаете это изображение в нейросеть, выделяете область с текстом (маску) и даете команду: «Сделай текст в этой области четким и читаемым».

Даже в этом случае нейросеть часто фантазирует и меняет буквы местами. Этот метод хорош для исправления мелких дефектов - затекстов, трещин, - а никак не для написания длинных осмысленных фраз.

Попросить ИИ сделать это БЕЗ генерации

Самый надежный способ соединить картинки — использовать нейросети, которые созданы специально для редактирования, а не для рисования с нуля. Вам потребуются не генераторы картинок, а нейросетевые редакторы - или инструменты на базе ИИ в обычных программах. Они работают по принципу «умных ножниц»:

Clipdrop и аналоги. Вы загружаете картинки. ИИ мгновенно вырезает объект - вашу надпись - с прозрачным фоном, - даже когда она была на белом фоне, - и позволяет вручную перетащить её на фон. Текст при этом остается идеально четким: программа не перерисовывает буквы, а перемещает пиксели.
Remove.bg и подобные сервисы убирают фон с картинки-надписи, оставляя лишь буквы.
Фотошоп с нейросетями. В них присутствует инструмент «Наложение» (Blending), где ИИ помогает подобрать цвет и тень так, чтобы вставленный текст выглядел естественно, при этом шрифт надписи он не портит.

Как выглядит идеальный конвейер?

Чтобы получить 100% качественный результат без ручного кропотливого вырезания, попробуйте такой алгоритм:

Генерация фона. Просим нейросеть нарисовать красивую картинку. Обязательно просим сделать часть картинки свободной, например: «...с пустым баннером в руках у человека» или «...с чистой табличкой на двери». У вас сразу же окажется место для текста.
Создание текста. Идём в любой онлайн-генератор текста - их сотни бесплатных, - или просто пишем текст в Ворде/Фотошопе крупным шрифтом. Сохраняем как картинку с прозрачным фоном в формате PNG.
"Умное" соединение. Берем нейросетевой инструмент для монтажа.
Самый простой - Canva, в котором присутствует ИИ-инструмент «Magic Edit» или просто загрузка картинок и ручное наложение слоя с текстом на слой с фоном. Продвинутый - Фотошоп и его команда «Поместить встроенные». Если нужно, чтобы тень от человека падала на текст, то попросите нейросеть Midjourney нарисовать отдельно карту теней. Это уже высший пилотаж.

Не заставляйте нейросеть делать то, что у нее получается хуже всего, - писать тексты. Заставьте её делать то, что у нее получается отлично, - рисовать фон и вырезать объекты. Соединять картинки следует не через промпты, а через инструменты монтажа - с использованием ИИ-функций типа «умное вырезание». Это сэкономит вам нервы и время.