80 подписчиков

xAI выпустила Grok 4.1: новый лидер среди языковых моделей, но с одним большим ограничением

19 ноября 202519 ноя 2025

3 мин

Представляете? Elon Musk’s xAI буквально вчера анонсировала Grok 4.1 — и это случилось прямо перед тем, как Google запустила свою Gemini 3. Ну, конечно, такой момент не случаен. Новая модель уже доступна потребителям на Grok.com, в социальной сети X и в мобильных приложениях, и она принесла серьёзные улучшения: более быстрое логическое мышление, лучше работает с эмоциями, да и галлюцинации почти исчезли. Кстати, xAI даже опубликовала подробный документ об оценке и обучении модели — это похвально, честно говоря. По публичным тестам Grok 4.1 поднялась на вершину рейтингов, обогнав моделями Anthropic, OpenAI и даже Google (ну, её Gemini 2.5 Pro, конечно). А потом Google выпустила Gemini 3 — и та заняла первое место. Но это не отменяет того, что скорость развития у xAI просто впечатляющая: всего два месяца прошло с релиза Grok 4 Fast! На LMArena Text Arena лидерборде Grok 4.1 Thinking на минут с нормализованным Elo 1483 держала корону, потом Google выпустила Gemini 3 с её 1501. Но даже без

Оглавление

Рекорды и лидерство на бенчмарках
Что конкретно улучшилось
Безопасность и устойчивость к атакам

Кстати, xAI даже опубликовала подробный документ об оценке и обучении модели — это похвально, честно говоря.

Рекорды и лидерство на бенчмарках

По публичным тестам Grok 4.1 поднялась на вершину рейтингов, обогнав моделями Anthropic, OpenAI и даже Google (ну, её Gemini 2.5 Pro, конечно). А потом Google выпустила Gemini 3 — и та заняла первое место. Но это не отменяет того, что скорость развития у xAI просто впечатляющая: всего два месяца прошло с релиза Grok 4 Fast!

На LMArena Text Arena лидерборде Grok 4.1 Thinking на минут с нормализованным Elo 1483 держала корону, потом Google выпустила Gemini 3 с её 1501. Но даже без размышления (обычная версия) Grok 4.1 показывает 1465 — это выше, чем Gemini 2.5 Pro, Claude 4.5 и GPT-4.5 preview.

В творческом письме? Вот здесь интересно: она вторая после Polaris Alpha, набирая 1721.9 на Creative Writing v3 бенчмарке. Это примерно на 600 пунктов больше, чем старые версии Grok!

Что конкретно улучшилось

Технически — это серьёзный прыжок вперёд. Возможности работы с изображениями и видео теперь настоящие: анализ графиков, распознавание текста из картинок (OCR), всё это работает надёжно. Раньше это было узким местом.

Скорость снизилась на 28 процентов — при том же качестве рассуждений. И главное: модель теперь может работать с 1 миллионом токенов без деградации, а раньше у Grok 4 начинались проблемы уже после 300 тысяч.

Плюс улучшена работа с внешними инструментами: может планировать и запускать несколько задач параллельно. По внутренним логам, исследовательские запросы, которые требовали 4 шага, теперь решаются за 1-2 шага.

Ещё добавили лучшее «чувство истины» — модель меньше размывает ответы на политически чувствительные вопросы — и улучшили голос: теперь звучит естественнее, с разными стилями и акцентами.

Безопасность и устойчивость к атакам

Здесь тоже прогресс: галлюцинации упали с 12.09 процентов в Grok 4 Fast до 4.22 процентов — это примерно на 65 процентов лучше. На FActScore (тест на фактическую правильность) показатель ошибок упал с 9.89 процентов до 2.97 процентов.

Что касается защиты от атак: тестировали на prompt injection, jailbreak’ы, опасные химические и биологические запросы. Фильтры показали низкий процент пропусков — даже по химии 0 процентов, по биологии 0.03 процента.

Сопротивление манипуляциям (бенчмарк MakeMeSay)? Вот здесь просто ноль процентов успеха для атакующего.

Но есть но — и большое

Вот это уже повод разочароваться. Grok 4.1 не доступна через API для разработчиков. То есть энтерпрайз-клиенты не могут её использовать в боевых условиях: нет интеграции в свои системы, нет fine-tuning, нет многоагентных цепочек, нет встраивания в продукты.

Модель живёт только в X, Grok.com и мобильных приложениях — как потребительский продукт. Для разработчиков доступны только Grok 4 Fast (оба варианта) с 2 миллионами токенов контекста и ценой от 0.20 до 0.50 доллара за миллион токенов.

Кстати, есть ограничения по пропускной способности: 4 миллиона токенов в минуту и 480 запросов в минуту максимум.

Что дальше?

Публика встретила релиз хорошо. Даже сам Mask похвалил, сказал, что «отличная модель» и поздравил команду. Эксперты оценили прыжок в качестве и linguistical nuance.

Но для корпоративных клиентов картина смешанная. Grok 4.1 — это прорыв в творчестве и обобщённых задачах, но без API это просто потребительский продукт. Когда xAI откроет доступ через API — вот тогда это станет по-настоящему интересно для бизнеса.

А пока конкуренты (OpenAI, Google, Anthropic) не сидят сложа руки. Интересно будет посмотреть, какой будет следующий стратегический ход xAI.

Технологический ландшафт меняется каждый день — новые модели, улучшения, стратегические релизы. Чтобы не пропустить ничего важного и понять, что реально работает, а что — просто громкие обещания.🔔 Подписывайтесь на мой канал «ProAI» в Telegram — здесь разбираю все новости о языковых моделях, агентах AI и том, как это всё работает в реальном бизнесе!