35 подписчиков

Сбер выкатил GigaChat-3.1: Большое обновление больших моделей (тавтология

24 марта24 мар

1 мин

?) Сбер выкатил детальный технический гайд по обновлению GigaChat, который претендует на звание самого глубокого инженерного разбора в отечественном сегменте за последнее время. Вот основные тезисы этого релиза: Переход на MoE и архитектурные решения Команда отказалась от Dense-структур (представленных в превью в ноябре) в пользу архитектуры MoE (Mixture of Experts) с использованием технологий MTP и MLA. Модели обучены «с нуля», имеют лицензию MIT и представлены в двух вариантах: * Ultra: Общий объем — 702B параметров (активны 36B). * Lightning: Компактная версия на 10B параметров (активны 1.8B). Решение уникальных проблем Самое интересное в посте — не цифры, а описание «болей» при разработке, которые редко встречаются в академических статьях: * Борьба с циклами: При переходе на MoE модели начали «зацикливаться», бесконечно повторяя текст. Обычные методы не помогали, поэтому инженерам пришлось создавать собственную метрику детекции повторов и полностью перекраивать процесс пост-трейна

Сбер выкатил GigaChat-3.1: Большое обновление больших моделей (тавтология?)

Сбер выкатил детальный технический гайд по обновлению GigaChat, который претендует на звание самого глубокого инженерного разбора в отечественном сегменте за последнее время.

Вот основные тезисы этого релиза:

Переход на MoE и архитектурные решения

Команда отказалась от Dense-структур (представленных в превью в ноябре) в пользу архитектуры MoE (Mixture of Experts) с использованием технологий MTP и MLA. Модели обучены «с нуля», имеют лицензию MIT и представлены в двух вариантах:

* Ultra: Общий объем — 702B параметров (активны 36B).

* Lightning: Компактная версия на 10B параметров (активны 1.8B).

Решение уникальных проблем

Самое интересное в посте — не цифры, а описание «болей» при разработке, которые редко встречаются в академических статьях:

* Борьба с циклами: При переходе на MoE модели начали «зацикливаться», бесконечно повторяя текст. Обычные методы не помогали, поэтому инженерам пришлось создавать собственную метрику детекции повторов и полностью перекраивать процесс пост-трейна.

* Оптимизация FP8: Выяснилось, что перевод этапа DPO в формат FP8 не только вдвое экономит память, но и парадоксально повышает качество ответов относительно стандартного bf16.

* Баги в SGLang: В процессе тестов нашли критическую ошибку в библиотеке SGLang (при dp > 1), которая приводила к неверным результатам бенчмарков.

Бенчмарки и производительность

По результатам тестов новые модели уверенно конкурируют с мировыми лидерами:

* GigaChat Ultra обходит DeepSeek-V3 и Qwen3 в логике и математических задачах.

* GigaChat Lightning показывает результаты на уровне GPT-4o в реальных сценариях («живые арены»), оставаясь при этом крайне легковесной.

Это делает новые модели Сбера одними из самых перспективных решений для локального запуска и встраивания в сложные продукты.

https://huggingface.co/collections/ai-sage/gigachat-31

https://habr.com/ru/companies/sberbank/articles/1014146/