Добавить в корзинуПозвонить
Найти в Дзене

MAI-Thinking-1: Microsoft научилась думать сама — и это важнее, чем 97% на AIME

2 июня на Build 2026 Microsoft показала свою первую reasoning-модель — MAI-Thinking-1. Если читать только заголовки, история звучит скучно: «ещё одна модель, 97% на AIME, на равных с Claude Opus». Но настоящая новость не в цифрах на лидерборде. Она в том, что компания, которая последние годы фактически арендовала мозг у OpenAI, впервые с нуля обучила reasoning-модель фронтир-класса полностью на своём: своих данных, своих чипах, своём RL-стеке и без единого грамма дистилляции. Вот это — тектонический сдвиг. Давайте разберёмся, что под капотом и почему расклад меняется. Сухая выжимка фактов — сразу с поправками, потому что в исходных пересказах кое-что упростили: ⚙️ MAI-Thinking-1 — это разреженный Mixture-of-Experts: 35 млрд активных параметров при ~1 трлн общих. На каждый запрос «зажигается» лишь малая часть сети — отсюда инференс-след как у средней модели при амбициях большой. 📐 Контекст — 256k токенов. Microsoft для наглядности говорит: влезает документ на 600 страниц. Плюс function
Оглавление

2 июня на Build 2026 Microsoft показала свою первую reasoning-модель — MAI-Thinking-1. Если читать только заголовки, история звучит скучно: «ещё одна модель, 97% на AIME, на равных с Claude Opus». Но настоящая новость не в цифрах на лидерборде. Она в том, что компания, которая последние годы фактически арендовала мозг у OpenAI, впервые с нуля обучила reasoning-модель фронтир-класса полностью на своём: своих данных, своих чипах, своём RL-стеке и без единого грамма дистилляции. Вот это — тектонический сдвиг. Давайте разберёмся, что под капотом и почему расклад меняется.

Что именно показали

Сухая выжимка фактов — сразу с поправками, потому что в исходных пересказах кое-что упростили:

⚙️ MAI-Thinking-1 — это разреженный Mixture-of-Experts: 35 млрд активных параметров при ~1 трлн общих. На каждый запрос «зажигается» лишь малая часть сети — отсюда инференс-след как у средней модели при амбициях большой.

📐 Контекст — 256k токенов. Microsoft для наглядности говорит: влезает документ на 600 страниц. Плюс function calling, многослойные инструкции и совместимость с Chat Completions API — то есть модель втыкается в существующий код почти без переписывания.

📈 Заявленные метрики: 97.0% на AIME 2025 и 94.5% на AIME 2026; паритет с Claude Opus 4.6 конкретно на SWE-Bench Pro; а в слепом A/B-тесте (1350 парных оценок, партнёр — Surge) живые оценщики предпочли её Claude Sonnet 4.6.

🧪 Важная сноска, которую любят опускать: все эти числа — self-reported. Цифры конкурентов Microsoft взяла из их официальных model cards, а независимой воспроизводимости пока нет. Препринт с методологией опубликован, но до внешней проверки относимся к результатам как к маркетинговым.

🚪 Доступ: пока private preview в Microsoft Foundry, скоро public preview в MAI Playground. Плюс модель обещают на OpenRouter, Fireworks и Baseten — и, что любопытно, дать разработчикам тюнить веса.

Маленькое, но важное уточнение про «зайдёт в ваш Copilot». Сама MAI-Thinking-1 — это пока Foundry. В GitHub Copilot и VS Code сегодня едет другая модель из этого же анонса — MAI-Code-1-Flash на 5 млрд параметров (Microsoft позиционирует её как уровень Haiku, только дешевле). Так что «дешёвый reasoning в ежедневном Copilot» — это вектор, но прямо сейчас в Copilot заезжает маленькая кодовая модель, а не флагман.

Главная идея — «машина для восхождения на холм»

Вот здесь начинается интересное. Анонс подписал Мустафа Сулейман (глава Microsoft AI), и его текст — не про одну модель, а про систему, которую они называют hill-climbing machine, «машина для восхождения на холм». Идея простая и при этом сильная: построить конвейер, в котором каждый компонент — данные, награды, среды обучения, железо — можно «подкручивать вверх», чтобы способности росли непрерывно, цикл за циклом. Не разовый рывок, а воспроизводимый процесс улучшения.

Стоит конструкция на трёх столбах, и каждый — это заявление:

🧠 «Способности learned, not inherited» — выученные, а не унаследованные. Это прямой отказ от дистилляции. Поясню для тех, кто не в теме: дистилляция — это когда маленькую модель учат имитировать выходы большой, «учителя». Дёшево, быстро, и так делают почти все, включая половину открытых моделей. Microsoft сознательно отказалась. Их аргумент: имитатор намертво привязан к решениям своего учителя и плохо адаптируется к новому. Моё мнение — это дорогая, медленная, но честная ставка. Ты не получаешь чужой потолок в наследство; ты строишь базу, которую реально понимаешь и можешь улучшать. Для «машины восхождения» это критично: нельзя бесконечно карабкаться вверх, стоя на чужих плечах.

🧹 Чистые данные. Обучали на «clean and appropriately licensed» данных, причём ИИ-сгенерированный контент из претрейна исключили. И вот это — не PR, а сразу два реальных хеджа. Первый — против model collapse: когда модели всё чаще кормят текстом, который сами же модели и написали, качество деградирует от поколения к поколению. По мере того как интернет заполняется ИИ-шумом, чистые человеческие данные превращаются в дефицитный ресурс и в полноценное конкурентное преимущество. Второй хедж — юридический: на фоне исков об обучении на нелицензированном контенте (Microsoft, на минуточку, сама сидит соответчиком в части таких дел) «доказуемо лицензированные данные» — это снижение риска, а не лозунг.

🏗️ Самодостаточность по всему стеку. От ко-дизайна модели с собственным кремнием до RL-фреймворка — всё своё, end-to-end.

Железо и инфраструктура — часть, которую все пропускают

Большинство обзоров застряли на лидерборде, а самое мясо — здесь.

🔩 Microsoft ко-проектирует модель вместе со своим чипом Maia 200 и заявляет 1.4× прирост эффективности от этой связки. Это та же логика вертикальной интеграции, что у Google с TPU + Gemini: когда железо и модель растут навстречу друг другу, выжимаешь больше из каждого ватта.

🖥️ Плюс уже запущен кластер нового поколения на NVIDIA GB200. То есть ставка не «или своё, или NVIDIA», а «и то, и другое, под наши задачи».

🏋️ RL-среды (RLEs) они называют «тренажёрными залами для ИИ»: каждая среда детерминирована, исполняема и оценивается реальными тест-сьютами. Модель не просто читает код — она его правит, гоняет тесты, видит падения и учится восстанавливаться после собственных ошибок. Для агентного кодинга это именно то, что нужно: не «угадай ответ», а «пройди многошаговую работу как живой инженер».

На мой взгляд, вот этот треугольник — модель ↔ чип ↔ RL-фреймворк — и есть настоящий ров. Лидерборд завтра перебьют; собственный вертикально интегрированный конвейер — нет.

Frontier Tuning — тихая бомба, которую недооценили

Если честно, я считаю, что эта часть анонса важнее самой модели. Microsoft показала Frontier Tuning: подход, где предприятие дообучает MAI-модель прямо на следах своей работы — на трассах реальных задач, последовательностях шагов и решений, которые описывают, как работа реально делается внутри компании. И — ключевое — веса остаются вашими.

Цифры, которые они приводят, отрезвляют:

📊 Их MAI-модель, дотюненная под Excel, по качеству догоняет GPT-5.4, но при этом до 10× эффективнее.

🏦 Модель, заточенная под жёсткие корпоративные стандарты McKinsey, показала наивысший win-rate среди всех протестированных — и примерно при 10× меньшей стоимости.

И вот тут — важное уточнение к исходной новости. Фразу «обучена на чистых корпоративных данных» легко прочитать так, будто базовую модель кормили данными клиентов. Это не так: база — на лицензированных данных. А обучение «на ваших данных» — это и есть отдельная, опциональная, контролируемая клиентом фича Frontier Tuning. Разница принципиальная.

Моё мнение: это и есть корпоративный клин Microsoft. Они продают не модель — они продают самоулучшающуюся модель-фабрику, прикрученную к твоим данным, на твоём контуре и под твоим контролем. Для enterprise это куда более липкий продукт, чем «ещё один умный чат».

Безопасность, перевёрнутая с ног на голову

Любопытный поворот в философии. Обычно «безопасность» = «модель почаще отказывается». Microsoft зашла с другой стороны: и небезопасное согласие, и избыточный отказ они трактуют как дефекты в одной и той же системе наград, агрегируя их по тяжести потенциального вреда. Прямая позиция: модель не должна отказывать в легитимных запросах «под видом безопасности», иначе она не служит человеку. Всё это упаковано в лозунг Humanist Superintelligence — ИИ как инструмент, подчинённый человеку.

Моя оценка двойственная. Как заявление — это бальзам для корпоративных пользователей, которых бесит, когда ассистент капризничает на ровном месте. Но «меньше отказов» — палка о двух концах, и единственная настоящая проверка тут — независимый ред-тиминг, а не графики из собственного блога.

Стратегический контекст — неловкий танец с OpenAI

Теперь зум-аут. Microsoft одновременно крупнейший спонсор OpenAI — и вот уже выкатывает собственные конкурирующие модели, после переподписания партнёрства. Классические «заклятые друзья». И семь моделей в один день (reasoning, кодинг, картинки, голос, транскрибация) — это не просто релиз, это демонстрация пропускной способности той самой «машины восхождения»: смотрите, мы умеем печь фронтир-модели пачками.

Туда же — анонс совместной с Mayo Clinic фронтир-модели для здравоохранения, которая будет принадлежать Mayo Clinic. Это шаблон для чувствительных доменов: не «наша модель для всех», а «ваша модель, на вашей экспертизе, под вашим именем».

И на фоне всего — их же тезис о масштабе: вычисления для обучения фронтир-моделей уже выросли в триллион раз, и они ждут ещё тысячекратного роста за три года.

Моё прочтение простое: Microsoft хеджируется. OpenAI остаётся в меню API — но теперь у Microsoft есть собственный сквозной стек, чтобы больше никогда не быть заложником одного вендора. Это не «развод», это «я больше не кладу все яйца в чужую корзину».

Выводы и прогнозы

Паритет на бенчмарках — приятно, но вторично. Сигнал в другом: у Microsoft теперь есть сквозной двигатель — данные, чипы, RL, пост-тренинг, дистрибуция — и философия (восхождение на холм, ноль дистилляции), заточенная под накопление преимущества, а не под разовый хайп.

Чего я жду дальше:

🔁 Частого ритма версий. Если «машина восхождения» работает как заявлено, MAI-Thinking-2/3 не заставят себя ждать.

💰 Что главным источником денег станет не сама модель, а Frontier Tuning — продажа дообучения «под себя».

🏥 Больше моделей по схеме «принадлежит клиенту/партнёру» (шаблон Mayo) — в медицине, финансах, праве.

🔬 И главный реальный тест — независимое воспроизведение бенчмарков. Пока цифры self-reported, держим скепсис; вот когда сторонние лабы подтвердят SWE-Bench Pro и AIME — тогда и поговорим всерьёз.

⚔️ И, конечно, нарастающее напряжение в отношениях с OpenAI по мере того, как собственные модели Microsoft карабкаются вверх.

Итог одной фразой. Заголовок гласит: «Microsoft теперь умеет думать». Но мелкий шрифт важнее: «Microsoft построила фабрику, которая позволяет ей умнеть дальше, ни у кого не спрашивая разрешения». Запоминать стоит именно второе предложение.

Источники

🔗 Introducing MAI-Thinking-1 — Microsoft AI (первоисточник новости): https://microsoft.ai/news/introducing-mai-thinking-1/

🔗 Разбор «Как Microsoft построила машину для восхождения на холм» — Telegraph: https://telegra.ph/MAI-Thinking-1-Kak-Microsoft-postroila-mashinu-dlya-voshozhdeniya-na-holm-i-sozdala-model-kotoraya-ne-boitsya-dumat-06-02

🔗 Building a hill-climbing machine: Launching seven new MAI models — Мустафа Сулейман / Microsoft AI: https://microsoft.ai/news/building-a-hillclimbing-machine-launching-seven-new-mai-models/

🔗 MAI-Thinking-1 technical report (PDF): https://microsoft.ai/wp-content/uploads/2026/06/main_20260602_2.pdf

🔗 Microsoft Build 2026: MAI-Thinking-1 (независимое освещение и оговорка про воспроизводимость) — TechTimes: https://www.techtimes.com/articles/317631/20260602/microsoft-build-2026-mai-thinking-1-first-house-reasoning-model-trained-without-openai-data.htm