227 подписчиков

Когда LLM встречает диффузию: знакомимся с LLaDA — «большой языковой диффузионной моделью»

20 февраля 202520 фев 2025

4 мин

В последние годы мы привыкли, что большие языковые модели (LLM) обучаются авторегрессионно — от GPT до LLaMA всё крутится вокруг предсказания следующего токена в последовательности. Но проект LLaDA (Large Language Diffusion with mAsking) показывает, что можно добиться сопоставимого уровня интеллекта и гибкости, используя совершенно другую парадигму генерации — диффузионную. 🌀 От авторагрессии к диффузии

В традиционных LLM формируется контекст слева направо, строка за строкой. LLaDA же работает с идеей «маскировки и восстанавливания» (masked diffusion), что исторически применялось в области диффузионных моделей для изображений и других типов данных. 🤖 Сопоставимые результаты с LLaMA3 8B

Авторы указывают, что LLaDA, имея масштаб 8B параметров, успешно конкурирует с LLaMA3 того же размера. Причём все слои и параметры обучены с нуля, то есть модель не использует предварительно натренированный чекпойнт. ✏️ Генерация с «маскированным восстановлением»

Во время обучения часть токенов (иногда

Оглавление

Что такое LLaDA и почему это интересно?
Технические детали: как устроен процесс
Масштабирование и результаты

В последние годы мы привыкли, что большие языковые модели (LLM) обучаются авторегрессионно — от GPT до LLaMA всё крутится вокруг предсказания следующего токена в последовательности. Но проект LLaDA (Large Language Diffusion with mAsking) показывает, что можно добиться сопоставимого уровня интеллекта и гибкости, используя совершенно другую парадигму генерации — диффузионную.

Что такое LLaDA и почему это интересно?

🌀 От авторагрессии к диффузии
В традиционных LLM формируется контекст слева направо, строка за строкой. LLaDA же работает с идеей «маскировки и восстанавливания» (masked diffusion), что исторически применялось в области диффузионных моделей для изображений и других типов данных.

🤖 Сопоставимые результаты с LLaMA3 8B
Авторы указывают, что LLaDA, имея масштаб 8B параметров, успешно конкурирует с LLaMA3 того же размера. Причём все слои и параметры обучены с нуля, то есть модель не использует предварительно натренированный чекпойнт.

✏️ Генерация с «маскированным восстановлением»
Во время обучения часть токенов (иногда все) заменяются масками, и модель учится «восстанавливать» их. В SFT (Supervised Fine-Tuning - контролируемая донастройка модели) маскируются только ответные токены, благодаря чему модель сосредотачивается на генерации релевантных частей диалога, при этом сохраняя контекст.

Технические детали: как устроен процесс

🔎 Рассеяние/Диффузия (Diffusion)
Идея в том, что модель пошагово «превращает» полностью замаскированный текст в открытый, на каждом этапе предсказывая, какие токены надо восстановить. При этом возможен гибкий ре-маскинг: если какие-то участки остались непредсказанными или сильно искажены, их можно «доработать» на следующем шаге, уточняя генерацию модели.

⚙️ Предобучение + SFT

Предобучение (Pretraining): Случайная маскировка всех токенов (в разных соотношениях), чтобы модель научилась основным закономерностям языка.
Контролируемая донастройка модели (Supervised Fine-Tuning - SFT): Теперь маскируются только ответы, чтобы отточить навыки генерации отклика на пользовательские запросы (как в диалоговой LLM).

Масштабирование и результаты

🚀 Масштабируемость (Scalability)
Разработчики провели эксперименты на ряде бенчмарков (MMLU, ARC, C–MMLU, PIQA, GSM8K, HumanEval). Графики показывают, что «кривая роста» LLaDA сравнима с авторегрессионными моделями: при увеличении параметров (8B и выше) качество сильно поднимается.

📝 Формирование текста «не слева направо»
Авторы подчеркивают, что генеративный процесс идёт иначе, чем в GPT-подобных моделях. Однако итоговый текст выглядит так же связно — мы видим в примерах, как LLaDA решает математические задачи, рекомендует фильмы, переводит тексты и ведёт диалоги.

Примеры использования

🧮 Решение математических задач
По диалогам видно, что LLaDA:

Понимает арифметические действия (например, рассчитать общее число клипов, проданных за несколько месяцев).
Может динамично поддерживать контекст (добавлять новые вычисления, когда пользователь меняет условия).

🎬 Рекомендации фильмов
Предлагает «The Shawshank Redemption», «The Godfather» и «The Empire Strikes Back», снабжая каждого кратким описанием — классический пример простого «опросного» сценария.

💻 Генерация кода на Python
Показывает простой пример сортировки массива «от большего к меньшему» с использованием .sort(reverse=True).

🌐 Переводы на разные языки
Модель умеет переводить между английским, китайским, немецким и при этом сохранить смысл (Пусть и с небольшими стилистическими огрехами — «immaginiert» вместо «imaginiert»(воображаемый), но смысл передан правильно).

Личный взгляд: будущее диффузионных LLM

На мой взгляд, LLaDA — это демонстрация того, что «авторегрессия» не единственный путь к развитому «языковому интеллекту». Основные причины, почему это может оказаться прорывом:

✨ Универсальность
Если диффузионная модель действительно способна конкурировать на уровне больших бенчмарков, то у нас появляется ещё один сильный класс генеративных архитектур. В будущем, возможно, мы сможем объединять преимущества диффузионных и авторегрессионных методов для более устойчивых моделей.

💡 Гибкость масок
В диффузионном подходе можно «переосмысливать» фрагменты ответа, вести пошаговую доработку (iterative refinement), проще встраивать логику правок, что может быть удобно для редактирования длинных текстов.

⚙️ Отображение в другие домены
Уже были работы, где диффузия применялась для картинок, аудио. Если LLaDA эффективно работает с текстом, возможно, появятся мультимодальные модели, которые единообразно обрабатывают изображение, звук и текст в рамках одного принципа.

Ссылки и детали для ознакомления

Демонстрационный сайт: ml-gsai.github.io/LLaDA-demo/
Полный текст статьи: arXiv:2502.09992

Заключение
LLaDA — это любопытная веха в том, что «большие языковые модели» вовсе не обязаны быть авторегрессионными. Диффузионный способ генерации позволяет достичь сходного качества и демонстрирует внушительную масштабируемость. Тенденция «больших диффузионных LLM» может дать нам новые горизонты развития диалоговых ассистентов и инструментов работы не только с текстом, но и с аудио и видео.