?) Сбер выкатил детальный технический гайд по обновлению GigaChat, который претендует на звание самого глубокого инженерного разбора в отечественном сегменте за последнее время. Вот основные тезисы этого релиза: Переход на MoE и архитектурные решения Команда отказалась от Dense-структур (представленных в превью в ноябре) в пользу архитектуры MoE (Mixture of Experts) с использованием технологий MTP и MLA. Модели обучены «с нуля», имеют лицензию MIT и представлены в двух вариантах: * Ultra: Общий объем — 702B параметров (активны 36B). * Lightning: Компактная версия на 10B параметров (активны 1.8B). Решение уникальных проблем Самое интересное в посте — не цифры, а описание «болей» при разработке, которые редко встречаются в академических статьях: * Борьба с циклами: При переходе на MoE модели начали «зацикливаться», бесконечно повторяя текст. Обычные методы не помогали, поэтому инженерам пришлось создавать собственную метрику детекции повторов и полностью перекраивать процесс пост-трейна