11 подписчиков

Кириллица не для слабонервных: GPT Image 2 снова лажает

7 мая7 мая

1 мин

Мир замер в ожидании идеальной генерации текста на картинках. OpenAI обещали прорыв, и на латинице он действительно случился. Но как только русскоязычные пользователи попросили модель написать что-нибудь вроде «Кофе с собой» или «Вход только для работников», началось веселье. Буквы плывут, слова рассыпаются, а вместо «Пекарня» может появиться набор символов, напоминающий результат неудачного эксперимента с шифрованием. Пользователи жалуются, и их можно понять. Когда нейросеть превращает простое слово «Продукты» в нечитаемую абракадабру, это не баг в привычном понимании. Это системная проблема. Старые модели просто рисовали закорючки, похожие на буквы, не понимая их значения. Современные уже умеют читать текст, который генерируют, но только если он на латинице. С кириллицей всё сложнее. Почему так происходит? Объяснение простое и обидное для всех, кто говорит по-русски. Датасеты, на которых обучались все эти модели, состоят в основном из западного контента. Латинские буквы — миллиарды п

Пользователи жалуются, и их можно понять. Когда нейросеть превращает простое слово «Продукты» в нечитаемую абракадабру, это не баг в привычном понимании. Это системная проблема. Старые модели просто рисовали закорючки, похожие на буквы, не понимая их значения. Современные уже умеют читать текст, который генерируют, но только если он на латинице. С кириллицей всё сложнее.

Почему так происходит? Объяснение простое и обидное для всех, кто говорит по-русски. Датасеты, на которых обучались все эти модели, состоят в основном из западного контента. Латинские буквы — миллиарды примеров. Кириллица — так, пара тысяч картинок для галочки. Вдобавок токенизация режет русские слова на мелкие куски, как будто это не единое слово, а конструктор «собери сам». Модель видит не «привет», а «при» и «вет» и пытается их склеить. Получается криво.

В общем, пока разработчики не спохватятся и не дообучат свои нейросети на приличном объёме кириллицы, русскоязычным пользователям остаётся одно: генерировать картинки без текста, а потом добавлять надписи вручную. Фотошоп или любой графический редактор. Да, это костыль. Да, это нарушает всю магию «одним кликом». Но зато буквы не разбегаются, а слова читаются. Или можно просто писать промпты на английском и делать вид, что так и задумано. Но мы-то знаем правду. Кириллица — следующий рубеж. И пока он не взят, русский текст на картинках ИИ выглядит так, будто его писала нейросеть с похмелья.