5380 подписчиков

Искусственный интеллект от Маска: как Grok 4 обходит конкурентов и в чем он все еще слаб

24 июля24 июл

4 мин

Не так давно прошла презентация новой модели Grok 4, и уже сейчас кругом только и говорят об усовершенствовании этой нейросети. Сам Илон Маск считает, что его детище в настоящее время достигло уровня доктора наук. И за этими словами стоят реальные цифры - ведь Grok 4 уже показал высочайшие результаты по всем бенчмаркам. Сегодня расскажем, чем удивит эта модель после своего усовершенствования и как она работает на практике. Grok 4 от xAI — не просто очередная языковая модель, а настоящий титан интеллекта, который только что поставил новый рекорд в мире ИИ. В тесте «Последний экзамен человечества», разработанном Центром безопасности и масштабирования ИИ, модель ответила на 2500 мультимодальных вопросов, которые охватывают все — от квантовой физики до философии и биотехнологий. Это не школьный тест с выбором ответа, а настоящий экзамен на грани человеческих знаний. И знаете что? Grok 4 не просто справился. Он обошел всех конкурентов, в том числе o3 от OpenAI и Gemini 2.5 от Google, показа

Оглавление

ИИ, который сдал «Последний экзамен человечества» на отлично
Работа нейросети на практике
Хайп против реальности

ИИ, который сдал «Последний экзамен человечества» на отлично

Grok 4 от xAI — не просто очередная языковая модель, а настоящий титан интеллекта, который только что поставил новый рекорд в мире ИИ. В тесте «Последний экзамен человечества», разработанном Центром безопасности и масштабирования ИИ, модель ответила на 2500 мультимодальных вопросов, которые охватывают все — от квантовой физики до философии и биотехнологий. Это не школьный тест с выбором ответа, а настоящий экзамен на грани человеческих знаний. И знаете что? Grok 4 не просто справился. Он обошел всех конкурентов, в том числе o3 от OpenAI и Gemini 2.5 от Google, показав, что готов решать задачи, от которых у других моделей плавятся процессоры.

Изображение: https://www.mariehaynes.com/some-thoughts-on-grok-4/

А теперь о самом вкусном: Grok 4 Heavy. В этой версии несколько ИИ-агентов работают вместе, устраивая мозговой штурм. Они используют в своей работе дополнительные инструменты наподобие поиска в интернете и выполнения кода. Интеллектуальные помощники словно "перебрасываются идеями", чтобы найти самый точный ответ. Результат? Искры гениальности и точность, которая заставляет задуматься: а не пора ли нам, людям, подвинуться? Grok 4 Heavy не просто отвечает на вопросы — он переосмысливает, как ИИ может работать с информацией, и это настоящий прорыв.

Но и стоит эта модель немало. Ежемесячная подписка на Grok 4 Heavy составляет целых 300 долларов. Как считают эксперты, эта цена оправдывает себя в тех ситуациях, когда необходима очень серьезная работа искусственного интеллекта, и цена ошибки тоже крайне высока.

Работа нейросети на практике

Что касается практического применения, модель Grok 4 показывает себя с креативной стороны. В качестве примера мы задали ИИ следующий вопрос: "Если бы время можно было "упаковать" в коробку, как бы выглядела эта коробка, и что бы произошло, если её открыть? Опиши это максимально образно". Помните, сколь странными были поэтические тексты, выдаваемые первыми общедоступными моделями ИИ? Так вот, в этот раз мы не столкнулись ни с чем подобным. Описание нейросети получилось таким, что при минимальном количестве правок от человека его легко будет спутать с настоящим, написанным людьми:

Возможно, с такими успехами уже в ближайшем будущем Grok начнет писать целые книги. Завершение этого этюда тоже отличается логичностью и поэтизмом:

Следующий вопрос в адрес Grok 4 был из области науки: "Если Вселенная бесконечна, что находится за ее пределами? Если она конечна, что находится за ее границами? Объясни, как ты подходишь к этому вопросу, не используя стандартные научные ответы". В этот раз нейросеть тоже решила опираться на философский подход. Но нужно отдать должное, что это лишь пошло на пользу. Ответ получился понятным, вполне складным и, что немаловажно, интересным:

Свои ответы Grok 4 проиллюстрировал при помощи наглядного графика:

Наконец, наш завершающий вопрос в адрес ИИ звучал так: "Если бы ты могла изменить один физический закон Вселенной, чтобы он работал иначе, что бы ты выбрала и как бы это повлияло на реальность? Например, что, если бы гравитация работала в обратную сторону по выходным?". И на него мы также получили заслуживающий внимания ответ.

Хайп против реальности

Как можно увидеть, Grok в его теперешней версии представляет собой довольно интересную нейросеть. Но нельзя не отметить, что некоторые эксперты все же высказываются в адрес Grok 4 не столь восторженно. Реальная жизнь, критически отмечают они — не тест с множественным выбором, на котором можно блеснуть заученными ответами. Истинная ценность ИИ не в том, чтобы выбивать максимум баллов на заранее подготовленных заданиях, а в том, как он справляется с хаотичными, непредсказуемыми задачах, которые бросает нам реальность. Grok 4, несмотря на свои громкие победы в таких тестах, как «Последний экзамен человечества», не всегда оправдывает ожидания, когда дело доходит до практических задач.

Например, один из пользователей решил проверить Grok 4 в деле, и результат оказался далек от рекламных обещаний. Отладка критического бага в Python? Модель запнулась, выдав неверное решение. Извлечение точных выводов из сложных юридических документов? Grok 4 утонул в деталях. Краткое изложение запутанного научного исследования? Ответы были расплывчатыми и не по делу. Критики считают, что это не просто мелкие промахи, а иллюстрация закона Гудхарта в действии: когда целью становится лидерство в рейтингах, модели начинают «затачиваться» под искусственные тесты, но теряют хватку в реальных сценариях. Grok 4, возможно, и звезда академических чартов, но в реальной жизни его блеск тускнеет; так считают критики.

Стоит ли пробовать эту модель в работе? На наш взгляд, несмотря на критику, однозначно да. К данному моменту Grok относится к наиболее быстроразвивающимся нейросетям, и ее функционал не перестанет совершенствоваться и далее. Даже если в отдельных задачах модель может и не справиться, все же такие случаи довольно редки. В остальном Grok 4 представляется одной из наиболее многообещающих нейросетей современности.

⠀

Благодарим за лайк и подписку на канал Creator Project!

Гаджеты и электроника

5,73 млн интересуются