Сбер открыл веса GigaChat 3: 702B Ultra и 10B Lightning с MoE-архитектурой
Сбер опубликовал открытые веса двух MoE-моделей нового поколения: GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B). Модели доступны с лицензией MIT и возможностью коммерческого использования. Обе модели используют кастомную архитектуру Mixture-of-Experts с поддержкой Multi-head Latent Attention и Multi-Token Prediction. MLA сжимает KV-кэш в латентное представление, что снижает требования к памяти и ускоряет обработку длинных контекстов. MTP позволяет предсказывать несколько токенов за один проход и ускорять инференс до 40 процентов. GigaChat...