Когда в ИИ-сообществе говорят о «прорыве», чаще всего подразумевают закрытые корпорации — те, у кого есть бюджет на тысячи A100 и пайплайны, доступный лишь гигантам. Но DeepSeek-AI снова нарушает правило: их DeepSeek-V3.2 — пример того, как открытая разработка превращается в настоящую технологическую гонку, где open-source догоняет — и местами обгоняет — элитные закрытые модели. Но в этот раз всё иначе. DeepSeek-V3.2 не просто улучшает предыдущую версию — она впервые демонстрирует золотые достижения уровня IMO, IOI и ICPC, и всё это с открытым стеком и вполне вменяемой инфраструктурой обучения. И причина успеха — не магия, а инженерия. Причём тонкая. 🔥 DSA: внимание, которое наконец-то не удушает GPU Главная инновация — DeepSeek Sparse Attention (DSA).
Проблема всех современных моделей проста: сложность внимания O(L²) рано или поздно убивает масштабируемость. Каждые дополнительные 32K контекста превращаются в тысячи долларов на вычисления, особенно при RL-тренировке. DSA делает три в