4243 подписчика

Чем крут Grok 3

18 февраля 202518 фев 2025

3 мин

Посмотрел запись часовой презентации новой версии AI-помощника в X: сам регулярно пользуюсь прошлой версией, поэтому было интересно, что нового готовит команда Маска. 1. Grok 3 в 10-15 раз мощнее, чем Grok 2 Обучался на кластере из 100 тысяч GPU Nvidia H100: это крупнейший в мире кластер с полным подключением. Предварительное обучение Grok 3 закончили в январе, но продолжают совершенствовать. — Бенчмарки: доминирует в математике (AIME 2025), вопросах уровня PhD STEM и программировании (LeetCode). — Слепые тесты: на Chatbot Arena (где юзеры оценивают две модели, решающие одну и ту же он стал первой моделью, набравшей более 1 400 баллов. — С задачами хорошо справляется даже его младший брат, Grok-3 Mini. Если нужно использовать максимум вычислительной мощности для решения задачи, можно включить режим BigBrain, который делает многоступенчатый анализ. А ещё тизернули голосовой помощник Ara на базе Grok 3 с человеческими интонациями. 2. DeepSearch: «армия стажёров» для поиска истины Новый п

Посмотрел запись часовой презентации новой версии AI-помощника в X: сам регулярно пользуюсь прошлой версией, поэтому было интересно, что нового готовит команда Маска.

1. Grok 3 в 10-15 раз мощнее, чем Grok 2

Обучался на кластере из 100 тысяч GPU Nvidia H100: это крупнейший в мире кластер с полным подключением. Предварительное обучение Grok 3 закончили в январе, но продолжают совершенствовать.

— Бенчмарки: доминирует в математике (AIME 2025), вопросах уровня PhD STEM и программировании (LeetCode).

— Слепые тесты: на Chatbot Arena (где юзеры оценивают две модели, решающие одну и ту же он стал первой моделью, набравшей более 1 400 баллов.

— С задачами хорошо справляется даже его младший брат, Grok-3 Mini. Если нужно использовать максимум вычислительной мощности для решения задачи, можно включить режим BigBrain, который делает многоступенчатый анализ.

А ещё тизернули голосовой помощник Ara на базе Grok 3 с человеческими интонациями.

2. DeepSearch: «армия стажёров» для поиска истины

Новый поисковый агент xAI читает, перекрёстно проверяет и синтезирует данные в режиме реального времени, ведёт «мыслительный процесс», включая перечисление источников и шагов по проверке (как в DeepSeek R1).

Примеры использования:

— Прогнозирование следующего окна запуска ракеты SpaceX (его Grok 3 накодил прямо в ходе трансляции);

— Анализ игровых стратегий Path of Exile (лол, тут даже Илон самоиронично усмехнулся);

— Предсказание результатов баскетбольных матчей или направления изменения стоимости акций публичных компаний.

3. ЦОД построили за 122 дня

Для обучения Grok 3 команда xAI с нуля построила в Мемфисе специальный центр обработки данных, переоборудовав заброшенную фабрику Electrolux.

— Арендовали «четверть мощностей мобильного охлаждения США» и использовали Tesla Megapacks для стабилизации нестабильных требований к питанию GPU.

— Это первый в истории крупномасштабный кластер с жидкостным охлаждением. Маск рассказывал, что у кластера для обучения Grok 2 из-за проблем с температурой эффективность падала до 80% — то есть было у них 8000 процессоров H100, а выдавали они мощность как 6500 процессоров.

Для обучения Grok 4 уже начали строить новый кластер. Он будет в пять раз мощнее — 1,2 ГВт вместо прежних 0,25 ГВ, и будет использовать новейшие сервера Nvidia GB200 и GB300.

4. Как получить и когда будет доступно

Сегодня ночью началась раскатка новых функций.

— Первыми доступ к Grok 3 получают подписчики уровня Premium+, это самая дорогая подписка за ≈22 евро в месяц (Grok 2 доступен в подписке Premium за ≈8 евро в месяц).

— Позже появится специальная подписка Super Grok для опытных пользователей.

— Голосовой помощник Ara будет доступен «как можно раньше», пока что в бета-версии, ориентировочно через неделю. Уже завтра должен появиться режим жёстко юморящего Grok 3 (unhinged fun mode).

— Скорее всего, через несколько месяцев Grok-2 будет выпущен в open source, когда Grok-3 стабилизируется.

Пачка цитат:

Маск, представляясь вслед за инженерами: «А я ничего не делаю. Просто иногда прихожу».

Маск о миссии Грока: «Грок — это слово из романа Роберта Хайнлайна "Чужак в чужой стране", которое использует персонаж, выросший на Марсе, и оно означает "полностью разобраться в чём-то". Миссия Grok — помочь нам разобраться в том, как устроена Вселенная».

Когда машины начнут делать прорывы: «Три года назад я говорил, что через два года машины начнут получать награды вроде Нобелевской премии, возможно, работая в паре с живым экспертом. […] получающие Нобелевские премии? Возможно, в паре с живым экспертом… но скоро».

Когда Grok установят на ракеты: «Думаю, через два года».

Вот что говорит о Grok 3 Андрей Карпатый, который уже потестил её в разных режимах:

✅ Grok 3 справился со сложной задачкой сделать веб-версию настольной игры Catan («Колонизаторы»). С ней не справлялись DeepSeek R1, Gemini 2.0 и Claude 3.5;

✅ Режим размышления в Grok 3 хорошо справился с задачкой оценки объёма вычислений для обучения Grok 2 (требует много анализа);

✅ Режим DeepSearch хорошо работает для исследований и комплексных поисковых запросов типа «Почему растут акции Palantir», но модель редко ссылается на X как на источник информации (что выглядит как упущение) и иногда генерирует несуществующие ссылки (это замечают и другие пользователи). Качество не дотягивает до OpenAI Deep Research, но на уровне Perplexity DeepResearch (которое достаточно высокое);

❌ Считает, что 9.11 > 9.9 и делает похожие логические ошибки в других тривиальных вопросах, но исправляется, если включить режим размышления;

❌ Есть проблемы с чувством юмора и этическими ограничениями: например, Grok 3 не смог написать эссе на тему, нормально ли мисгендерить кого-то, если это спасёт 1 млн людей от смерти.

❌ Не смогла нарисовать «пеликана на велосипеде» в формате SVG. Claude с этим справляется лучше всего.

Grok 3

39 тыс интересуются