🚀 Ребята из DeepSeek выпустили крутую библиотеку FlashMLA, которая значительно ускоряет работу attention в моделях вроде DeepSeek-V3.2. Главное – токен-уровневая Sparse Attention и суперэффективное использование FP8 для кеша ключ-значение. Это позволяет достичь до 660 терафлопс на топовых NVIDIA GPU! Для разработчиков это значит быстрее обучение и инференс, а для продвинутых моделей – новые горизонты производительности. Если вы работаете с PyTorch и CUDA последних версий, стоит попробовать! Отличный пример того, как low-level оптимизации влияют на весь ML-стек. #MachineLearning #DeepLearning #CUDA #NVIDIA #PyTorch #Optimization #Attention #AI https://github.com/deepseek-ai/FlashMLA https://vlad1kudelko.github.io/