Gigachat выпустили в опенсорс свои две новые модели, сразу по ним пройдемся 🔘GigaChat-3.1-Ultra (702B MoE) - Обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning - На аренах обошел DeepSeek-V3-0324 и выходит на уровень Qwen3-235B-A22B-Non-Thinking - Лидер среди non-reasoning моделей в Math, General Reasoning, Function Calling, Coding, Vision 🔘GigaChat-3.1-Lightning (10B MoE, 1.8 млрд активных параметров) - Играет на уровне GPT-4o на аренах с судьёй GPT-4.1 - Превосходит конкурентов по скорости - Output: 3 958 tps | Total: 8 054 tps в FP8 + MTP Плюс много всяких дополнительных улучшений и ускорений 🔘В статье у себя рассказали как боролись с багами всякими и трудностями При переходе от Dense к MoE-архитектуре модели стали зацикливаться, выдавая тексты вроде: "…Пальмы. Пальмы. Пальмы. И жара, жара, жара. И океан, океан, океан…" Решили они это измерением циклов, если модель зациклилась, конец генерации хорошо сжимается (много повторяющихся патт