Найти в Дзене
Social Mebia Systems

Grok 4: Новый лидер среди LLM? Утечка результатов и "честная" революция Маска

В AI-сообществе — новый повод для бурных обсуждений: утекли результаты тестирования Grok 4, свежей модели от xAI Илона Маска. Grok 4 не только обошёл OpenAI, Google Gemini и Anthropic Claude на ключевых бенчмарках, но и показал рекордные 45% на "Human Last Exam" — самом сложном экзамене для искусственного интеллекта. Что показала утечка Скриншоты, подтверждённые экспертами, раскрыли баллы Grok 4 и Grok 4 Code на ряде престижных тестов: HLE — это "человеческий последний экзамен", охватывающий 100+ дисциплин, 2500 экспертных задач, включая мультимодальные вопросы и ловушки против "натаскивания". Большинство современных LLM не набирают и 20% — Grok 4 стал абсолютным рекордсменом. В чём секрет Grok 4? Илон Маск и команда xAI утверждают: Grok 4 строит рассуждения "с нуля", используя первопринципы — как физики, которые разбирают проблему до самых базовых законов и строят выводы оттуда. Такой подход, по словам Маска, не только повышает точность, но и делает модель более "честной" и безопасной

В AI-сообществе — новый повод для бурных обсуждений: утекли результаты тестирования Grok 4, свежей модели от xAI Илона Маска. Grok 4 не только обошёл OpenAI, Google Gemini и Anthropic Claude на ключевых бенчмарках, но и показал рекордные 45% на "Human Last Exam" — самом сложном экзамене для искусственного интеллекта.

Что показала утечка

Скриншоты, подтверждённые экспертами, раскрыли баллы Grok 4 и Grok 4 Code на ряде престижных тестов:

  • GPQA (физика и астрономия, уровень аспирантуры): Grok 4 — 87-88% (выше Gemini 2.5 Pro и Claude 4 Opus)
  • AIME 25 (математическая олимпиада США): Grok 4 — 95% (значительно выше OpenAI o3 и Claude 4 Opus)
  • SWE-bench (реальные задачи по программированию): Grok 4 Code — 72-75% (чуть выше конкурентов)
  • Human Last Exam (HLE): Grok 4 — до 45% (в 2 раза выше Gemini 2.5 Pro и в 4 раза выше Claude 4 Opus)
-2

HLE — это "человеческий последний экзамен", охватывающий 100+ дисциплин, 2500 экспертных задач, включая мультимодальные вопросы и ловушки против "натаскивания". Большинство современных LLM не набирают и 20% — Grok 4 стал абсолютным рекордсменом.

В чём секрет Grok 4?

Илон Маск и команда xAI утверждают: Grok 4 строит рассуждения "с нуля", используя первопринципы — как физики, которые разбирают проблему до самых базовых законов и строят выводы оттуда. Такой подход, по словам Маска, не только повышает точность, но и делает модель более "честной" и безопасной: если результат противоречит фундаментальным законам, значит, где-то ошибка.

Маск подчёркивает: "Честность — лучшая стратегия не только с этической, но и с инженерной точки зрения. Мы будем ошибаться, но обязуемся быстро исправлять ошибки и слушать обратную связь от разработчиков".

Grok 4 Code: ставка на программирование

Особое внимание уделяется Grok 4 Code — специализированной версии для программистов. Она интегрируется в редакторы, помогает писать, анализировать и исправлять код, поддерживает длинный контекст и сложные задачи. Это ответ на успехи Gemini CLI, Claude Code, OpenAI Codex и DeepSeek R1, где именно кодинг стал главным полем битвы для LLM.

Скепсис и вопросы

Не все в AI-сообществе верят в чудо: создатель HLE Dan Hendrycks — близкий советник xAI, что вызывает вопросы о независимости тестирования. Вспоминают и недавние скандалы с "натаскиванием" моделей на тестовые датасеты. Тем не менее, даже скептики признают: если результаты подтвердятся, Grok 4 станет новым эталоном для индустрии.

Когда ждать релиз?

Маск пообещал: Grok 4 выйдет сразу после 4 июля, и команда работает над этим "днями и ночами". В этот раз xAI решила не выпускать промежуточные версии, а сразу сделать большой скачок от Grok 3.5 к Grok 4.

Итог

Grok 4 — не просто новая LLM, а претендент на лидерство в эпоху "честных" и мощных AI. Если модель действительно способна рассуждать с опорой на первопринципы и превосходит конкурентов на самых сложных тестах, это может изменить всю индустрию. В ближайшие дни AI-сообщество ждёт релиза и независимых проверок — и, возможно, новую эру в развитии искусственного интеллекта.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/