Найти в Дзене
4pda.to

«Умнейший ИИ на Земле»? Тесты Grok 3 от Илона Маска

Стартап xAI показал третью версию чат-бота Grok. Это представитель следующего поколения моделей, обученных на улучшенных мощностях. Разбираем на основе имеющихся тестов, в чём детище Илона Маска способно потягаться с конкурентами. Grok 3 натренирован на крупном объёме синтетических данных с использованием до 200 тысяч видеокарт H100 на финальном этапе. По заявлению создателей, модель стала в 10 раз умнее Grok 2. Ещё ассистента снабдили функцией размышления, как у о1 и о3 mini от OpenAI. Она кратно повышает возможности нейронки в сложных сценариях: на решение задачи выделяется больше времени, а сам процесс демонстрируется пошагово. Нативно поддерживается распознавание аудио. То есть скоро добавят возможность голосового общения. Мультимодальный помощник умеет выражать эмоции и запоминать предпочтения пользователя. Кроме того, предусмотрен Deep Research — инструмент для генерации детальных отчётов, соразмерных с исследованиями. Поисковый агент анализирует множество источников, включая даж
Оглавление
   «Умнейший ИИ на Земле»? Тесты Grok 3 от Илона Маска
«Умнейший ИИ на Земле»? Тесты Grok 3 от Илона Маска

Стартап xAI показал третью версию чат-бота Grok. Это представитель следующего поколения моделей, обученных на улучшенных мощностях. Разбираем на основе имеющихся тестов, в чём детище Илона Маска способно потягаться с конкурентами.

-2

Главные фишки

Grok 3 натренирован на крупном объёме синтетических данных с использованием до 200 тысяч видеокарт H100 на финальном этапе. По заявлению создателей, модель стала в 10 раз умнее Grok 2. Ещё ассистента снабдили функцией размышления, как у о1 и о3 mini от OpenAI. Она кратно повышает возможности нейронки в сложных сценариях: на решение задачи выделяется больше времени, а сам процесс демонстрируется пошагово.

Нативно поддерживается распознавание аудио. То есть скоро добавят возможность голосового общения. Мультимодальный помощник умеет выражать эмоции и запоминать предпочтения пользователя. Кроме того, предусмотрен Deep Research — инструмент для генерации детальных отчётов, соразмерных с исследованиями. Поисковый агент анализирует множество источников, включая даже соцсети вроде X. Отметили и способность Grok 3 к самосовершенствованию — качество ответов будет повышаться даже после релиза.

Доступ к Grok 3 в первую очередь открыли подписчикам Premium+ на платформе X и сайте grok.com. Для всех модель станет доступна в ближайшее время; выпустят в том числе и API-версию.

-3

Многообещающий, но неполный список тестов

По функциональности xAI догнала конкурентов, что же насчёт показателей? На сайте LMSYS Arena, где тестировщики оценивают качество выдачи разных моделей, Grok 3 предварительно заняла первое место в рейтинге. ИИ делит первенство с аналогами от OpenAI, Google и DeepSeek в некоторых категориях, включая «Креативность/письмо», «Общий, с контролем стиля», «Длинные запросы» и «Следование инструкциям». То есть в целом, по оценкам портала, модель уже находится наравне и кое-где превосходит лидеров отрасли.

Более конкретный отрыв, пусть и незначительный, заметен в отдельных бенчмарках по кодингу, математике и науке. Для исчерпывающих выводов стоит подождать публичных тестов, включая мультимодальные. Но уже сейчас в свежем сценарии AIME 2025 (логико-числовые задачи) виден значительный прирост по сравнению с теми же o1 и o3 mini, доступными сейчас через ChatGPT. У OpenAI, впрочем, ещё есть невышедшая крупная модель o3, с которой сравнения ещё не проводили.

Опробовать Grok 3 бесплатно можно на сайте lmarena.ai через раздел Direct chat.