7720 подписчиков

Прорывной китайский искусственный интеллект

23 июня 202523 июн 2025

~1 мин

Но что самое интересное - у модели открытый исходный код. По бенчмаркам все неплохо, на уровне топовых LLM, типа Gemini 2.5 и DeepSeek R1. Возможность подробных рассуждений присутствует, сейчас без нее никак.

По данным MiniMax, они потратили на обучение модели $534 700. Вроде бы и ничего себе сумма, но с другой стороны обучение DeepSeek-R1 стоило $5.6 млн, а GPT-4 — свыше $100 млн. Процесс обучения занял 3 недели на кластере из 512 видеопроцессоров GPU NVIDIA H800.

В гонке за самую прорывную и дерзкую китайскую нейросеть явно наметился новый лидер

Китайский стартап MiniMax выпустил LLM-модель MiniMax M1 с контекстным окном в 1 миллион токенов. Под капотом у нее алгоритм Mixture-of-Experts (MoE), как у моделей DeepSeek, и собственного механизма Lightning Attention, что позволяет обрабатывать до 1 миллиона входных токенов (около 750 000 слов) и генерировать до 80 000 токенов на выходе.

Но что самое интересное - у модели открытый исходный код. По бенчмаркам все неплохо, на уровне топовых LLM, типа Gemini 2.5 и DeepSeek R1. Возможность подробных рассуждений присутствует, сейчас без нее никак.

По данным MiniMax, они потратили на обучение модели $534 700. Вроде бы и ничего себе сумма, но с другой стороны обучение DeepSeek-R1 стоило $5.6 млн, а GPT-4 — свыше $100 млн. Процесс обучения занял 3 недели на кластере из 512 видеопроцессоров GPU NVIDIA H800.

В гонке за самую прорывную и дерзкую китайскую нейросеть явно наметился новый лидер