Добавить в корзинуПозвонить
Найти в Дзене
Social Mebia Systems

LLaDA2.0: первый в мире диффузионный языковой модель с 100 млрд параметров

В декабре 2025 года команда Ant Group совместно с ведущими китайскими университетами представила LLaDA2.0 — первый диффузионный языковой модель (dLLM) с масштабом 100B параметров. Это важнейший рубеж для альтернативы автогрессивным (AR) моделям, которые до сих пор доминировали в генерации текста. В чём суть и новизна? Диффузионные языковые модели (dLLM) — это новый подход, где текст генерируется не по одному токену слева направо, а параллельно и с возможностью корректировки уже сгенерированных фрагментов. Это позволяет лучше учитывать двусторонние зависимости и исправлять ошибки “на лету”. LLaDA2.0-flash — первый dLLM с 100 млрд параметров, построенный на архитектуре MoE (Mixture of Experts). В тестах на 47 бенчмарках модель показала средний балл 73.18, сравнимый с лучшими AR-моделями (например, Qwen3-30B-A3B-Instruct-2507). Особенно сильна в задачах программирования, сложного планирования и агентных сценариях. Ключевые технические р

В декабре 2025 года команда Ant Group совместно с ведущими китайскими университетами представила LLaDA2.0 — первый диффузионный языковой модель (dLLM) с масштабом 100B параметров. Это важнейший рубеж для альтернативы автогрессивным (AR) моделям, которые до сих пор доминировали в генерации текста.

В чём суть и новизна?

  • Диффузионные языковые модели (dLLM) — это новый подход, где текст генерируется не по одному токену слева направо, а параллельно и с возможностью корректировки уже сгенерированных фрагментов. Это позволяет лучше учитывать двусторонние зависимости и исправлять ошибки “на лету”.
  • LLaDA2.0-flash — первый dLLM с 100 млрд параметров, построенный на архитектуре MoE (Mixture of Experts). В тестах на 47 бенчмарках модель показала средний балл 73.18, сравнимый с лучшими AR-моделями (например, Qwen3-30B-A3B-Instruct-2507).
  • Особенно сильна в задачах программирования, сложного планирования и агентных сценариях.

Ключевые технические решения

  • Переход от AR к dLLM: вместо обучения с нуля, команда “плавно” переводит уже обученную AR-модель в диффузионный формат, что позволяет быстро масштабировать размер и сохранить знания.
  • Многоступенчатое обучение: используется стратегия Warmup–Stable–Decay, где размер “блока” текста постепенно увеличивается, а затем уменьшается для оптимизации генерации.
  • Блочная генерация: модель учится генерировать и корректировать не отдельные токены, а целые блоки текста, что ускоряет вывод и повышает согласованность длинных текстов.
  • Современные методы дообучения: включают SFT (supervised fine-tuning), CAP (confidence-aware parallelism) и DPO (direct preference optimization), что позволяет лучше подстраиваться под человеческие предпочтения и задачи.

Инженерные инновации

  • Масштабируемость: использование Megatron-LM и сложных параллельных стратегий (DP, PP, TP, CP, EP) позволило обучить модель такого размера на длинных последовательностях.
  • Оптимизация памяти и скорости: внедрение cuDNN-ускоренной attention, эффективное использование KV-кэша, поддержка блочного вывода — всё это позволило dLLM впервые обогнать AR-модели по скорости вывода (до 2.1x быстрее на некоторых задачах).

Результаты и значение

  • Сравнима с лучшими AR-моделями: LLaDA2.0-mini (16B) почти не уступает Ling-mini-2.0, а LLaDA2.0-flash (100B) на ряде задач даже превосходит Qwen3-30B.
  • Особенно заметен прогресс в коде и агентных задачах: Например, HumanEval — 94.51, MBPP — 88.29, MultiPL-E — 74.87.
  • Параллельная генерация и возможность редактирования: dLLM может генерировать текст в разных местах одновременно и корректировать уже написанное, что открывает новые сценарии использования.

Перспективы

  • dLLM — реальная альтернатива AR: впервые показано, что диффузионные языковые модели могут быть не только исследовательским курьёзом, но и промышленным решением на уровне 100B+ параметров.
  • Гибридные подходы: плавный переход между AR и dLLM открывает путь к новым гибридным архитектурам и более эффективным моделям будущего.
  • Вызовы остаются: необходимы дальнейшие исследования для ускорения RL, повышения эффективности и масштабируемости.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/