112 подписчиков

Нейросеть наконец-то поняла, что «ы» - это не трещина на асфальте

22 мая22 мая

3 мин

Яндекс, похоже, устал от того, что его генеративные картинки превращали русский язык в ребус для психиатра. И сделал то, чего от него давно ждали. Обновили «Алису» (ту самую, ART-версию), и теперь она пишет по-русски так, что это можно читать, не напрягая воображение. Раньше было забавно. Просишь нарисовать вывеску «Кофе с собой», а получаешь иероглифы, которые даже Ктулху не разобрал бы. Причина, кстати, не в лени программистов, а в том, как нейросети вообще видят буквы. Спойлер: они их не видят. Почему мозг робота - не букварь, а винегрет Большинство диффузионных моделей воспринимают символы не как буквы, а как текстуру. Для них «Ш» - это просто забор с острыми углами, а «Ы» - дерево с трещиной. Добавьте к этому жесткий дисбаланс в мировых датасетах: русских картинок с текстом там кот наплакал, да и те часто унылого качества. Пытаешься дообучить модель на кириллице - она начинает рисовать вместо рукописной открытки сюрреализм с элементами бреда. Яндексу это надоело. И они пошли други

Раньше было забавно. Просишь нарисовать вывеску «Кофе с собой», а получаешь иероглифы, которые даже Ктулху не разобрал бы. Причина, кстати, не в лени программистов, а в том, как нейросети вообще видят буквы. Спойлер: они их не видят.

Почему мозг робота - не букварь, а винегрет

Большинство диффузионных моделей воспринимают символы не как буквы, а как текстуру. Для них «Ш» - это просто забор с острыми углами, а «Ы» - дерево с трещиной. Добавьте к этому жесткий дисбаланс в мировых датасетах: русских картинок с текстом там кот наплакал, да и те часто унылого качества. Пытаешься дообучить модель на кириллице - она начинает рисовать вместо рукописной открытки сюрреализм с элементами бреда.

Яндексу это надоело. И они пошли другим путем.

Четыре вещи, которые инженеры сделали не «на коленке»

Вместо того чтобы просто подкинуть модели ещё пару тысяч мемов с надписями, парни пересобрали архитектуру. Вот что изменилось на самом деле (без занудства, но с фактами).

Во-первых, они собрали свой датасет. Это не просто скопировали всё подряд. 30 миллионов пар «картинка + текст» с ручной разметкой, плюс 100 тысяч эстетичных примеров для тонкой настройки. Особое внимание уделили редким буквам — теперь модель не впадает в ступор от слова «йогурт» или «ёжик».

Во-вторых, выкинули старую архитектуру UNet и воткнули DiT (Diffusion Transformer). Звучит как магия, но на деле нейросеть начала лучше понимать, где находится левый верхний угол надписи, а где правый нижний. Для нас с вами это значит, что длинные фразы перестали превращаться в кашу.

В-третьих, поменяли текстовый энкодер на полноценную большую языковую модель. Грубо говоря, теперь «Алиса» в принципе понимает смысл того, что вы от неё хотите, а не просто подбирает красивые пятна.

И в-четвертых (самое обидное для конкурентов) - её учили на русских промптах. Без дурацких костылей в виде «сначала переведи на английский, сгенерируй, а потом помолись». Нет. Сразу по-русски.

Что это дало на выходе (цифры - штука упрямая)

Внутренние тесты показывают: точность прорисовки букв выросла в три раза. Это не маркетинговое «стало лучше», а реальные замеры.

Модель теперь спокойно пишет фразы длиной в 7–9 слов. Для сравнения: прошлая версия на третьем слове начинала выдавать нечитаемую абстракцию, достойную выставки современного искусства. Количество генераций без артефактов подскочило на треть. А уровень узнаваемости русских бытовых деталей (вывески, ценники, этикетки) добрался до 85%. То есть из 10 попыток 8-9 будут выглядеть так, будто их делал дизайнер, а не шизофреник с нейросетью.

На текущий момент эта «Алиса» - однозначный лидер среди российских моделей по работе с кириллицей. Западные аналоги, кстати, до сих пор пишут «магазинъ» с твердым знаком на конце, потому что думают, что это круто.

Как не облажаться в промпте (или три лайфхака от разработчиков)

Даже такая умная нейросеть может накосячить, если вы ей напишете «сделай красиво». Команда Яндекса дает три совета. И знаете, они работают.

Первый. Берите текст в кавычки. Не мысленно, а буквально: надпись «ХЛЕБ». Иначе модель решит, что это просто звукоподражание.

Второй. Если слово редкое или сложное - пишите его ЗАГЛАВНЫМИ БУКВАМИ. Пусть орет на всю картинку. Это помогает нейросети сфокусироваться.

Третий. Длинные фразы разбивайте на части и объясняйте геометрию. Не «напишите название кафе и меню под ним», а так: «вверху надпись "ПОРТАЛ", прямо под ней фраза "нейронные сети работают", выровнено по центру». Да, придется поговорить с машиной как с пятиклассником. Но результат того стоит.

Вместо скучного вывода

Обычно в таких местах пишут «технологии не стоят на месте» или «мы на пороге новой эры». Но давайте честно: мы просто наконец-то получили нейросеть, которая не стыдится буквы «Я». И это прекрасно.

Как вам апдейт? Пользовались старой версией и плевались от каракулей? Или вам всё равно, пока картинка красивая? А может, уже успели что-то сгенерировать в новой?

Тыкайте лайк, если не боитесь сложных промптов. Подписывайтесь, чтобы не пропустить момент, когда нейросеть научится ставить запятые осмысленно. И давайте в комментариях - хвастайтесь своими удачными генерациями или кринжуйте с неудачных. Интересно посмотреть, где она пока тупит.