Что, если бы языковые модели могли мыслить более по-человечески? Вместо того чтобы генерировать текст по одному слову, что, если бы они сначала набрасывали идеи, а затем постепенно их дорабатывали? Именно это предлагает Large Language Diffusion Models (LLaDA) — новый подход к генерации текста, отличный от традиционных авторегрессивных моделей (ARMs). Вместо последовательного предсказания токенов слева направо LLaDA использует процесс, похожий на диффузию, чтобы создавать текст. Модель постепенно улучшает замаскированный текст, пока не сформирует связный ответ. В этой статье мы разберем, как работает LLaDA, почему это важно и как она может повлиять на эволюцию LLM. Надеюсь, вам понравится! Чтобы понять инновационность LLaDA, сначала нужно разобраться в работе современных языковых моделей. Современные LLM следуют двухэтапному процессу обучения: Примечание: Современные LLM часто используют RLHF для дальнейшей настройки, но LLaDA этот этап не применяет, поэтому мы его опустим. Эти модели,
LLaDA: Диффузионная модель, которая может переопределить генерацию языка
28 февраля 202528 фев 2025
13
3 мин