20 подписчиков

Открытые модели сокращают разрыв с фронтиром прямо на глазах

25 июня25 июн

10 мин

Середина июня 2026 года войдёт в историю языковых моделей как период, когда расстояние между закрытыми флагманами и открытыми конкурентами сжалось настолько, что граница перестала выглядеть непреодолимой. На лидербордах за эти несколько недель произошло сразу несколько сдвигов, каждый из которых по отдельности казался бы поводом для новостей - а вместе они складываются в картину, которая переписывает привычные представления о том, кто правит балом в мире больших языковых моделей. Claude Opus 4.8 устанавливает новые ориентиры в агентном кодинге и сложных задачах Claude Opus 4.8, выпущенный Anthropic 28 мая 2026 года, к середине июня успел закрепить позиции, которые сложно было представить у предыдущих версий. На SWE-bench Pro - наиболее контаминационно-устойчивом бенчмарке по реальным задачам из 1865 профессиональных репозиториев - модель по данным Anthropic показывает 69,2%, опережая GPT-5.5 на 10,6 процентного пункта и Gemini 3.1 Pro - на 15 пунктов. На независимом стандартизированном

Оглавление

Claude Opus 4.8 устанавливает новые ориентиры в агентном кодинге и сложных задачах
GLM-5.2 и Kimi K2.7 Code вышли с разницей в одни сутки и прицелились в фронтир
NVIDIA Nemotron 3 открыла не просто веса, а весь стек от данных до деплоя

Claude Opus 4.8 устанавливает новые ориентиры в агентном кодинге и сложных задачах

Claude Opus 4.8, выпущенный Anthropic 28 мая 2026 года, к середине июня успел закрепить позиции, которые сложно было представить у предыдущих версий. На SWE-bench Pro - наиболее контаминационно-устойчивом бенчмарке по реальным задачам из 1865 профессиональных репозиториев - модель по данным Anthropic показывает 69,2%, опережая GPT-5.5 на 10,6 процентного пункта и Gemini 3.1 Pro - на 15 пунктов. На независимом стандартизированном лидерборде Scale AI текущим лидером остаётся GPT-5.4 с 59,1%, однако именно разрыв между собственным скаффолдингом Anthropic и стандартизированным указывает на то, насколько критичен выбор окружения при интерпретации цифр.

Наиболее примечательный результат спрятан не в таблице с основными бенчмарками - он в данных по честности модели. Opus 4.8 стал первым Claude, у которого показатель "critically reports erroneous results" равен нулю. Предыдущая версия, Opus 4.7, ошибалась в 25% случаев при задачах на "ленивое расследование". Overconfidence - более чем в 10 раз ниже, чем у предшественника. Для инженеров, которые работают с агентным кодингом без надзора по несколько часов, это не абстрактная метрика: именно необнаруженные ошибки в середине долгой сессии ломают пайплайн.

Математическое мышление скакнуло отдельно: USAMO 2026 (олимпийские доказательства) - 96,7% против 69,3% у Opus 4.7. Разрыв в 27,4 процентного пункта за один релиз - это уже не инкрементальное улучшение, а качественный сдвиг в глубине рассуждений. На GraphWalks BFS, тесте на извлечение информации в контексте 1 миллиона токенов, результат улучшился с 40,3% до 68,1%.

На Appwrite Arena - открытом бенчмарке по знанию экосистемы Appwrite из 191 вопроса - Opus 4.8 набрал 97,4% в режиме без документации и стал первой моделью, преодолевшей порог 97% в этом режиме. Примечательно другое: это единственная модель на доске, у которой добавление документации к промпту не улучшает результат, а слегка ухудшает (97,1% против 97,4%). Модель знает платформу из обучения лучше, чем из внешних подсказок.

На независимом лидерборде BenchLM Opus 4.8 занимает третье место из 123 моделей с общим баллом 93/100, второе место в категории Knowledge (98,7) и третье в категории Coding (98). В агентном использовании инструментов и компьютерных задачах - третье место с результатом 96,4.

GLM-5.2 и Kimi K2.7 Code вышли с разницей в одни сутки и прицелились в фронтир

В течение одних суток середины июня 2026 года два китайских разработчика выпустили открытые модели с открытыми весами, прицельно направленные против фронтира закрытых флагманов.

GLM-5.2 от Zhipu AI - это 744 миллиарда параметров при активных ~40 миллиардах и контекстным окном в 1 миллион токенов. Последнее - принципиальный шаг: предыдущая версия GLM-5.1 ограничивалась 200 тысячами токенов. На LiveBench GLM-5.2 набирает 79,65 в категории "Coding Avg" и 73,33 в "Agentic Coding Avg". Второй показатель превышает результат проприетарного GPT-5.4 Thinking xHigh (70,00) в аналогичной колонке - что само по себе перестаёт быть новостью, когда смотришь на это в контексте полугода подобных результатов. На SWE-bench Pro модель фиксирует 62,1% - выше, чем у GPT-5.5 (58,6%) и GLM-5.1 (58,4%), и 81,0% на Terminal-Bench 2.1. Стоимость: план GLM Coding начинается от 18 долларов в месяц.

Kimi K2.7 Code от Moonshot AI - модель с триллионом суммарных параметров при 32 миллиардах активных, контекстным окном 256 тысяч токенов и фокусом на MCP-агентных рабочих процессах. MCP Mark Verified составляет 81,1. Ценовая политика - метрическая: 0,95 доллара за миллион входных и 4 доллара за миллион выходных токенов. Модель поддерживает мультимодальный ввод (изображения и видео), что делает её интересной именно для агентных пайплайнов с визуальными артефактами.

В очном тесте на реальном репозитории обе модели справились с одной и той же задачей кодирования корректно. Kimi завершила задачу быстрее, использовав больше инструментальных вызовов. GLM выдала более структурированный вывод и чуть лучше справилась с генерацией сложных приложений с нуля. Особенность Kimi - незапрошенное расширение логики: модель самостоятельно добавила обработку будущих раундов турнира, не предусмотренную промптом. Это и достоинство, и риск - агент, который делает больше, чем от него просят, требует внимательной валидации.

NVIDIA Nemotron 3 открыла не просто веса, а весь стек от данных до деплоя

Пока китайские модели доминировали на топе открытых бенчмарков, NVIDIA сделала ставку на другое - стать инфраструктурным выбором для тех, кто строит агентный AI на своём железе.

Nemotron 3 Super, выпущенный 11 марта 2026 года, - это 120 миллиардов параметров при 12 миллиардах активных, гибридная архитектура Mamba-Transformer MoE с контекстным окном 1 миллион токенов. Архитектурный выбор в пользу Mamba-2 как основного слоя для обработки последовательностей даёт линейную сложность по длине контекста - именно это делает миллионный контекст практически используемым, а не просто заявленным. На PinchBench, специализированном бенчмарке для агентов на базе OpenClaw, Nemotron 3 Super набирает 85,6% - лучший результат среди открытых моделей своего класса.

NVIDIA сделала неожиданный шаг: вместе с весами открыла рецепты обучения, датасеты (OpenMathReasoning, OpenCodeReasoning, Nemotron Agentic Safety Dataset с 11 000 записями реальной телеметрии), библиотеку RL-окружений NeMo Gym и готовые cookbooks для vLLM, SGLang и TensorRT-LLM. Это не просто открытая модель - это полный стек от данных до деплоя. Стратегический расчёт прозрачен: если разработчики запустили агентный AI на Nemotron, они останутся на GPU NVIDIA.

Немотрон 3 Nano Omni - параллельный релиз с поддержкой нативной работы с текстом, изображениями, видео и аудио одновременно. Нацелен на роль мультимодального суб-агента в составе крупных агентных систем.

Среди ранних адоптеров Nemotron 3 Super - Palantir (интеграция в Ontology), CodeRabbit (AI-ревью кода), CrowdStrike и Fortinet (модели безопасности), Bosch (голосовые интерфейсы для автомобилей).

Агентный кодинг перестал быть экспериментом и дошёл до промышленных пайплайнов

Слова "agentic coding" несколько лет назад читались как маркетинговый туман. Сейчас за ними стоят конкретные метрики и конкретные пайплайны.

Benchmark-фокус сместился. Разработчики больше не смотрят только на HumanEval или MMLU - им нужны цифры по SWE-bench Pro (реальные задачи из живых репозиториев, без утечки ответов), Terminal-Bench (работа агента в терминале с правами на изменение файлов и запуск команд), MCP-Atlas (качество взаимодействия с инструментами по протоколу MCP) и Finance Agent v2 (реальные финансовые рабочие процессы). Последний, кстати, выиграла Gemini 3.5 Flash - модель значительно меньшего размера, чем фронтирные флагманы. Это один из устойчивых трендов 2026 года: в специализированных вертикалях компактные модели нередко обгоняют гигантов.

Cursor сообщил, что Opus 4.8 на CursorBench выполняет задачи за меньшее число шагов при сохранении итогового качества. Cognition отметила, что новая модель закрыла проблему избыточной многословности в комментариях и ошибки в вызовах инструментов, характерные для Opus 4.7. Databricks Genie стал работать с PDF и диаграммами напрямую через мультимодальные способности Opus 4.8 при снижении стоимости на 61% по сравнению с предыдущей версией.

Среди открытых моделей Kimi K2.6 демонстрирует устойчивость при длинных сессиях - опубликованные тесты Moonshot AI зафиксировали два показательных сценария: оптимизация инференса Qwen заняла 12 часов и потребовала 4000+ вызовов инструментов, рефакторинг финансового движка exchange-core растянулся на 13 часов с 1000+ вызовами, но затронул 4000+ строк кода. Оба кейса прошли без деградации качества. Для суб-агентов в параллельных мультиагентных системах это важнее, чем одиночный бенчмарк. DeepSeek V4 Pro возглавляет LiveCodeBench с результатом 93,5 и рейтингом Codeforces 3206, а по SWE-bench Verified с открытыми весами идёт вровень с MiniMax M3 (оба около 80,5%).

Разрыв между открытыми и закрытыми моделями сжался до одного ценового аргумента

Разрыв между открытыми и закрытыми моделями принято изображать как пропасть. Реальная картина июня 2026 года выглядит иначе.

MiniMax M3, доступный как модель с открытыми весами, набирает 80,5% на SWE-bench Verified - выше GPT-5.5 и Gemini 3.1 Pro на том же бенчмарке. Kimi K2.6 (58,6%) на SWE-bench Pro оказывается всего на полпроцента ниже GPT-5.5 (59,1%) на стандартизированном лидерборде Scale AI, и при этом стоит в 5-7 раз дешевле на токен. DeepSeek V4-Pro доступен через API по 0,45 доллара за миллион входных токенов - примерно в 11 раз дешевле, чем Opus 4.8 по входным токенам и в 28 раз дешевле по выходным. Для высокопоточных агентных систем, где агент совершает сотни итераций, этот разрыв в стоимости определяет экономику продукта.

Появились и признаки новой динамики в геополитическом измерении рынка: GLM-5.2 и Kimi K2.7 Code вышли в течение суток друг за другом, оба - с прицелом на кодинг, оба - с ценами ниже западных аналогов. Nemotron 3 CORTEXA (агентная система NVIDIA на базе семейства Nemotron) набирает 68,2% на SWE-bench Verified, что значимо для открытой американской разработки, однако по-прежнему ниже китайского фронтира в этом классе.

Показательно, что 44% организаций называют защиту данных главным препятствием для внедрения LLM по внешнему API - и именно это делает самохостинг открытых моделей стратегически привлекательным не из экономии, а из соображений комплаенса.

Контекстные окна как новое поле конкуренции

Отдельного разговора заслуживает то, как изменилась конкурентная плоскость вокруг длины контекста.

Год назад 200 тысяч токенов считалось серьёзным преимуществом. Сейчас и Claude Opus 4.8, и GLM-5.2, и Nemotron 3 Super заявляют контекст в 1 миллион токенов. Но между "поддерживает 1M токенов" и "эффективно работает с 1M токенов" - дистанция, которую измеряют бенчмарки вроде GraphWalks BFS. Opus 4.8 улучшился здесь на 27,8 процентного пункта (с 40,3% до 68,1%) по сравнению с предыдущей версией. Для GLM-5.2 этот переход от 200K к 1M обеспечен архитектурным выбором MoE с 40B активными параметрами при суммарных 744B - именно такой баланс позволяет обслуживать длинный контекст без запредельных затрат на инференс.

Реальный выигрыш от длинного контекста проявляется не в чате, а в агентных пайплайнах: когда суб-агент должен держать в памяти всю кодовую базу или весь многотысячестраничный нормативный документ - разрыв между 200K и 1M токенов становится разницей между выполненной задачей и ошибкой на середине.

Что меняется в логике выбора модели

Если в 2024 году вопрос "какую LLM взять в production" часто сводился к одному выбору между закрытыми флагманами, то к середине 2026 года карта вариантов стала сложнее - и это хорошая новость для разработчиков.

Для задач с максимальными требованиями к качеству на реальных репозиториях без ограничений по стоимости - Claude Opus 4.8 как практический выбор (пока более сильные флагманы Anthropic остаются недоступны для части пользователей). Для высокопоточных агентов с длинными сессиями при ограниченном бюджете - DeepSeek V4-Pro или Kimi K2.6 в роли основного рабочего слоя, с Opus 4.8 как escalation-целью для задач, которые не удаётся закрыть. Для команд с требованиями по самохостингу или на оборудовании NVIDIA - Nemotron 3 Super с его полным открытым стеком. Для длинно-контекстных агентных рабочих процессов с мультиязычными кодовыми базами - GLM-5.2, дебютировавший на вершине agentic coding на LiveBench.

Примечательна динамика на Artificial Analysis Intelligence Index: открытые модели сейчас прочно занимают верхние строки рейтинга эффективности в своих ценовых категориях. Haiku 4.5 даёт 7,9 балла SWE-bench Pro на доллар выходных токенов - против 1,6 у Claude Fable 5. Это не значит, что меньший флагман лучше большого: они решают разные задачи. Но это значит, что разумная инженерия архитектуры агента - выбор модели под слой, а не один флагман на всё - стала необходимым навыком.

Июнь 2026 года не принёс одного безусловного победителя. Он принёс что-то более интересное: реальную конкуренцию на каждом уровне рынка.