Недавно я наткнулся на любопытную новость о новом типе языковых моделей, выпущенных компанией Inception Labs — так называемых «Diffusion LLM» (dLLM). Сначала я подумал: «Ну что ещё нового можно придумать в LLM?». Но присмотревшись внимательнее, быстро понял, что перед нами не просто очередной хайп, а возможно и будущее всей области генеративного ИИ. Обычные модели, к которым мы привыкли — ChatGPT, Claude, Qwen и прочие — работают по авторегрессивному принципу. Они генерируют текст слово за словом слева направо, последовательно и порой «забывая», с чего начали. Именно поэтому случаются знаменитые «галлюцинации» нейросетей, когда модель начинает уверенно, а заканчивает полным абсурдом. Diffusion LLM работает совершенно иначе: По сути, dLLM берут принципы диффузионных моделей (которые до этого успешно применялись в генерации изображений, например, в Stable Diffusion) и переносят их в мир генерации текстов. В традиционных авторегрессивных моделях генерация похожа на писателя, который пишет
🌀 Diffusion LLM: почему будущее языковых моделей — не за автодополнением?
7 марта 20257 мар 2025
40
4 мин