Заявление, сделанное генеральным директором европейского стартапа Mistral Артуром Меншем, стало настоящей бурей в AI‑сообществе. В интервью, отвечая на вопрос о конкуренции с китайскими открытыми моделями, он заявил: «DeepSeek‑V3 построен на нашей архитектуре. Мы первыми выложили открытую MoE‑модель, и они создали свою версию на базе нашего подхода.» Интернет взорвался мгновенно: от удивлённых «А?» до прямых обвинений в фантазиях. Для многих это прозвучало как попытка переписать историю задним числом. Ведь оба исследования — Mixtral и DeepSeek‑V3 — вышли с разницей всего в три дня, а архитектуры, если их внимательно сравнить, заметно отличаются. Более того, в конце 2025 года сообщество уже уличило Mistral 3 Large в использовании архитектуры DeepSeek‑V3, а не наоборот. Что же произошло на самом деле? MoE: общее направление, разные цели И Mixtral, и DeepSeek‑V3 — это модели класса Sparse Mixture of Experts (SMoE), использующие выборку экспертов по Top‑K‑маршрутизации, вдохновлённую Googl
Mistral против DeepSeek: спор об архитектуре, который взорвал AI сообщество
26 января26 янв
4 мин