Китайский стартап MiniMax выпустил LLM-модель MiniMax M1 с контекстным окном в 1 миллион токенов. Под капотом у нее алгоритм Mixture-of-Experts (MoE), как у моделей DeepSeek, и собственного механизма Lightning Attention, что позволяет обрабатывать до 1 миллиона входных токенов (около 750 000 слов) и генерировать до 80 000 токенов на выходе.
Но что самое интересное - у модели открытый исходный код. По бенчмаркам все неплохо, на уровне топовых LLM, типа Gemini 2.5 и DeepSeek R1. Возможность подробных рассуждений присутствует, сейчас без нее никак.
По данным MiniMax, они потратили на обучение модели $534 700. Вроде бы и ничего себе сумма, но с другой стороны обучение DeepSeek-R1 стоило $5.6 млн, а GPT-4 — свыше $100 млн. Процесс обучения занял 3 недели на кластере из 512 видеопроцессоров GPU NVIDIA H800.
В гонке за самую прорывную и дерзкую китайскую нейросеть явно наметился новый лидер