Такие модели по сравнению с классическими LLM быстрее обучаются и генерируют тексты. Сбер опубликовал первую диффузионную языковую модель GFusion на основе GigaChat, а также рассказал о методах ее обучения. Это экспериментальный проект, который разработал стажер компании, студент 4-м курса Факультета компьютерных наук НИУ ВШЭ Даниил Тихонов. Диффузионные модели считаются перспективным направлением в сфере генеративного ИИ. Классические LLM генерируют текст последовательно, слово за словом (авторегрессия), поэтому, чтобы исправить одну ошибку, модель вынуждена переписывать весь ответ заново. GFusion работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт параллельной генерации GFusion пишет текст быстрее: по тестам Сбера — до 45% быстрее GigaChat 3, на основе которого она обучалась. Кроме того, диффузионные модели также извлекают больше информации из ограниченного объема данных,
Сбер выложил в открытый доступ экспериментальную диффузионную языковую модель
ВчераВчера
75
~1 мин