142,1 тыс подписчиков

Нейросеть Grok 2 от Илона Маска заняла третье место в тесте чат-ботов

19 августа 202419 авг 2024

4 мин

Недавно принадлежащая Илону Маску компания xAI объявила о старте бета-тестирования своего продвинутого ИИ-бота Grok 2.0. Новая модель на этот раз представлена сразу в двух версиях: базовой (умнее) и мини (быстрее). Причём, если верить авторам, даже Grok 2.0 mini весьма заметно превосходит в тестах предыдущую версию 1.5, которую показали весной. В доказательство своих слов разработчики приводят существенно увеличившиеся показатели в тестах: Прогресс Grok 2 и 2 mini в ключевых ИИ-бенчмарках. Впрочем, наибольший интерес вызывают не результаты в автоматизированных тестах, а первое участие Grok на ChatBot Arena где победителя, тысячами голосов «вслепую», выбирают сами пользователи. Умные чат-боты Grok появились ещё в конце прошлого года, однако на «арене» Grok 1.0 и 1.5 никогда не были. Более того, за пределами платной подписки X (бывший Twitter) попробовать нейросети Илона Маска для любопытного пользователя было также крайне проблематично. Можно предположить, что в случае версий 1.0 и 1.5

В доказательство своих слов разработчики приводят существенно увеличившиеся показатели в тестах:

Прогресс Grok 2 и 2 mini в ключевых ИИ-бенчмарках.

Впрочем, наибольший интерес вызывают не результаты в автоматизированных тестах, а первое участие Grok на ChatBot Arena где победителя, тысячами голосов «вслепую», выбирают сами пользователи.

Умные чат-боты Grok появились ещё в конце прошлого года, однако на «арене» Grok 1.0 и 1.5 никогда не были. Более того, за пределами платной подписки X (бывший Twitter) попробовать нейросети Илона Маска для любопытного пользователя было также крайне проблематично.

Можно предположить, что в случае версий 1.0 и 1.5 команда разработчиков попросту опасалась, что Grok будет оценён слишком низко на фоне других больших языковых моделей. Однако сейчас новая версия 2.0 позволила разработчикам быть более уверенными в результатах.

Чтобы не делать лишнего шуму и не выдавать себя раньше времени, на сервисе Grok 2 дебютировал под сбивающим с толку названием «sus-column-r». Схожей хитрости при тестировании новых продуктов, к слову, придерживаются и другие команды разработчиков, включая создателей ChatGPT.

За несколько недель пребывания на сайте «sus-column-r» набрала почти 13 тысяч голосов и высокий рейтинг ELO, который позволил нейросети Маска сходу занять третье место среди 129 участвующих в голосовании лучших ИИ-систем:

Результат ранней версии Grok 2.0 на арене чат-ботов.

Разработчики раскрыли себя буквально несколько дней назад, пояснив в официальном блоге, что «sus-column-r» – это Grok 2.0. В итоге по уровню качества новинка разделила третье место с майской версией GPT-4o, но немного уступила августовским версиям той же GPT-4o и Gemini 1.5 Pro. Напомним, GTP-4o сейчас основа платной версии ChatGPT, а Gemini 1.5 Pro – флагманская ИИ-модель интернет-гиганта Google.

Любопытно, что с выпуском 2.0 Grok научился не только писать текстовые ответы, но и создавать изображения. На «арене» эта функция недоступна, зато с ней сейчас вовсю экспериментируют премиум пользователи X (Twitter). Здесь Илон Маск пошёл на хитрость, не став создавать генератор изображений с нуля, а заключив договор с командой Black Forest Labs.

Команда состоит из бывших ведущих разработчиков Stable Diffusion, которые покинули свою компанию весной, а в середине лета представили генератор изображений FLUX. Причём он сразу же занял первые строчки некоторых рейтингов, потеснив там даже платную Midjourney.

Судя по твиттер-аккаунту самого Маска, именно с Midjourney он изначально хотел заключить соглашение. Однако внезапно появившийся FLUX заинтересовал миллиардера больше. Помимо качества, преимуществом FLUX является относительно низкий уровень цензуры. Нейросеть без возмущений может рисовать людей в нижнем белье, не стесняется тем политики, известных личностей, а также не рисует половину персонажей чернокожими а-ля Google Imagen.

Примеры генерации FLUX Pro на официальном сайте Black Forest Labs.

Связка Grok 2.0 и генератора изображений FLUX напоминает аналогичный тандем из ChatGPT и Dall-E, с той лишь разницей, что у FLUX выше качество и меньше запретных тем. В обоих случаях генератор изображений в «команде» с большой языковой моделью работает явно лучше, чем без неё.

Возвращаясь к самому Grok 2.0, заметим: несмотря на высокие баллы на «арене», многие вопросы на логику и смекалку нейросеть, как её и конкуренты, не понимает. Особенно это касается тех задачек, которых нет в сети. Среди прочего Grok 2.0 часто неправильно отвечает на вопрос про 9,11 и 9,9, про фермера, перевозящего животных на другой берег, и т. д.

Впрочем, Илон Маск ещё несколько недель назад подтвердил, что Grok 2.0 – лишь вступление к более продвинутым версиям системы, которые выйдут в будущем. К примеру, если Grok 2 обучался на 20-25 тысячах ускорителей Nvidia H100, то следующая модель Grok 3 прямо сейчас обучается на 100 тысячах H100. Маск обещает завершить обучение и начать развёртывание версии 3.0 в декабре.

Основную конкуренцию детищу Илона Маска к тому времени составят новая таинственная версия GPT от OpenAI, Gemini 2.0 от Google и мощный Claude 3.5 Opus от Anthropic.

P. S. На момент написания текста Grok 2.0 всё ещё бесплатно доступен на ChatBot Arena под именем «sus-column-r». В свою очередь, FLUX можно бесплатно попробовать на сервисе Hugging Face в разделе Spaces. Там доступна официальная модель FLUX Dev – она не столь хороша, как Pro, но также порой способна выдавать весьма высокое качество.

📃 Читайте далее на сайте

Илон Маск

3889 интересуются