Найти в Дзене
Social Mebia Systems

Баги с иероглифами в DeepSeek V3.1

Недавно в сообществе исследователей искусственного интеллекта разгорелась настоящая дискуссия. Всего через неделю после выхода DeepSeek V3.1 пользователи обнаружили странный сбой: модель неожиданным образом постоянно вставляет в текст один и тот же иероглиф — 「极」 (в переводе «крайность», «экстремальный»). Ошибка проявляется хаотично: при написании кода, составлении экзаменационных работ или даже во время попытки «самоисправления». Как заметили «эффект 极» Первые сообщения пришли от пользователей Zhihu и разработчиков, тестировавших DeepSeek на разных платформах — от VolcEngine API до сторонних реализаций. Один из них отмечал, что при генерации текста иероглиф внезапно «вклинивается» в середину предложений. Причём при повторных вызовах вероятность повторения бага сохраняется. Другие подтвердили проблему: у кого‑то в коде внезапно появлялись слова вроде «极客园», а у некоторых всплывал целый фрагмент «极速赛车开奖直播». Похожие эффекты подтвердились и на Reddit. Там разработчик обратил внимание, чт

Недавно в сообществе исследователей искусственного интеллекта разгорелась настоящая дискуссия. Всего через неделю после выхода DeepSeek V3.1 пользователи обнаружили странный сбой: модель неожиданным образом постоянно вставляет в текст один и тот же иероглиф — 「极」 (в переводе «крайность», «экстремальный»). Ошибка проявляется хаотично: при написании кода, составлении экзаменационных работ или даже во время попытки «самоисправления».

Как заметили «эффект 极»

Первые сообщения пришли от пользователей Zhihu и разработчиков, тестировавших DeepSeek на разных платформах — от VolcEngine API до сторонних реализаций. Один из них отмечал, что при генерации текста иероглиф внезапно «вклинивается» в середину предложений. Причём при повторных вызовах вероятность повторения бага сохраняется.

Другие подтвердили проблему: у кого‑то в коде внезапно появлялись слова вроде «极客园», а у некоторых всплывал целый фрагмент «极速赛车开奖直播».

Похожие эффекты подтвердились и на Reddit. Там разработчик обратил внимание, что в таблице токенов DeepSeek три разных варианта («极», «極», а также английское extreme) имеют близкие ID и часто всплывают как приоритетные варианты при декодировании.

Возможные причины: от «грязных данных» до MTP

Сообщество активно строит гипотезы:

  • “Грязные данные”. Многие склоняются к мнению, что на этапе предобработки обучающих наборов данные не были достаточно очищены. В них могли встретиться повторные шаблоны («极长的数组» — «крайне длинный массив» и др.), которые модель потом заучила как своего рода маркер.
  • Сбои токенизации. Один из пользователей Reddit отметил, что ID токенов для省略号 («…») и «极» находятся рядом (2576 и 2577 соответственно). Это может провоцировать путаницу при декодировании.
  • MTP (multi‑token prediction). Там, где стеки вывода не поддерживают многотокенное предсказание (например, в llama.cpp), проблема проявляется чаще. На официальных API DeepSeek, где MTP реализован, баг фиксируется заметно реже.

Многоязычный сбой и «синдром код‑свитчинга»

Интересно, что не только символ «极» стал проблемой. Некоторые пользователи жалуются, что DeepSeek V3.1 в процессе перевода «смешивает языки» — добавляет английские слова или оставляет китайские иероглифы в русском и испанском тексте. Иногда это встречается на 5% от результата, иногда — лишь изредка.

-2

Почему это важно для индустрии

Случай с DeepSeek V3.1 стал очередным напоминанием: даже при создании сложнейших моделей «приземлённое» качество данных играет решающую роль. Как отмечает исследователь 黄哲威 (StepStar AI), «большинство багов при инференсе — это следствие проблем с данными. Просто обычно они проявляются не так ярко и сообщество их не замечает».

Этот баг показал, что даже в топовых моделях открытого доступа могут сохраняться скрытые «шумы» и артефакты, способные заметно повлиять на доверие пользователей.

Вывод

История с «любовью к символу 极» — больше, чем курьёз. Она подсветила ключевую проблему современной AI‑разработки: гонка за скоростью выхода новых версий иногда отвлекает от самого главного — качества исходных датасетов.

Пока DeepSeek готовится к выпуску ожидаемой версии V4, случай V3.1 остаётся предупреждением: без внимания к деталям даже лучшие архитектуры могут превратиться в источник мемов про «глюки в Матрице».

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/