150,7 тыс подписчиков

Сбер выложил в открытый доступ экспериментальную диффузионную языковую модель

ВчераВчера

~1 мин

Такие модели по сравнению с классическими LLM быстрее обучаются и генерируют тексты. Сбер опубликовал первую диффузионную языковую модель GFusion на основе GigaChat, а также рассказал о методах ее обучения. Это экспериментальный проект, который разработал стажер компании, студент 4-м курса Факультета компьютерных наук НИУ ВШЭ Даниил Тихонов. Диффузионные модели считаются перспективным направлением в сфере генеративного ИИ. Классические LLM генерируют текст последовательно, слово за словом (авторегрессия), поэтому, чтобы исправить одну ошибку, модель вынуждена переписывать весь ответ заново. GFusion работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт параллельной генерации GFusion пишет текст быстрее: по тестам Сбера — до 45% быстрее GigaChat 3, на основе которого она обучалась. Кроме того, диффузионные модели также извлекают больше информации из ограниченного объема данных,

Такие модели по сравнению с классическими LLM быстрее обучаются и генерируют тексты.

Сбер опубликовал первую диффузионную языковую модель GFusion на основе GigaChat, а также рассказал о методах ее обучения. Это экспериментальный проект, который разработал стажер компании, студент 4-м курса Факультета компьютерных наук НИУ ВШЭ Даниил Тихонов. Диффузионные модели считаются перспективным направлением в сфере генеративного ИИ.

Классические LLM генерируют текст последовательно, слово за словом (авторегрессия), поэтому, чтобы исправить одну ошибку, модель вынуждена переписывать весь ответ заново. GFusion работает иначе: сначала создаёт приблизительный «набросок» ответа, а затем пошагово дорабатывает его — так же, как нейросети генерируют изображения и видео. За счёт параллельной генерации GFusion пишет текст быстрее: по тестам Сбера — до 45% быстрее GigaChat 3, на основе которого она обучалась. Кроме того, диффузионные модели также извлекают больше информации из ограниченного объема данных, обучаясь на одном и том же датасете несколько раз.

Гаджеты и электроника

5,73 млн интересуются