Найти в Дзене
CISOCLUB

Почему Grok обошёл ChatGPT в тестах Relum

Компания Relum опубликовала итоги крупного исследования, в рамках которого протестировала десять наиболее известных ИИ-моделей, активно используемых в корпоративной и пользовательской среде. По результатам анализа наибольшую точность продемонстрировал Grok — продукт компании xAI, созданной Илоном Маском. Эта модель показала наименьший процент так называемых «галлюцинаций», то есть фактических ошибок в сгенерированном тексте. По информации исследователей, Grok искажает информацию только в 8% случаев. Для сравнения, у ChatGPT этот показатель достиг 35%, а у Google Gemini — 38%. Несмотря на более низкий уровень узнаваемости бренда, Grok возглавил итоговый рейтинг, опередив более популярные системы. Специалисты оценивали не только точность ответов. В исследование вошли также критерии, связанные со стабильностью работы, частотой технических сбоев, пользовательскими отзывами и надёжностью использования в корпоративной инфраструктуре. Итоговая шкала риска — индекс от 0 до 99 — отражает вероят
   Изображение: Saradasish Pradhan (unsplash)
Изображение: Saradasish Pradhan (unsplash)

Компания Relum опубликовала итоги крупного исследования, в рамках которого протестировала десять наиболее известных ИИ-моделей, активно используемых в корпоративной и пользовательской среде. По результатам анализа наибольшую точность продемонстрировал Grok — продукт компании xAI, созданной Илоном Маском. Эта модель показала наименьший процент так называемых «галлюцинаций», то есть фактических ошибок в сгенерированном тексте.

По информации исследователей, Grok искажает информацию только в 8% случаев. Для сравнения, у ChatGPT этот показатель достиг 35%, а у Google Gemini — 38%. Несмотря на более низкий уровень узнаваемости бренда, Grok возглавил итоговый рейтинг, опередив более популярные системы.

Специалисты оценивали не только точность ответов. В исследование вошли также критерии, связанные со стабильностью работы, частотой технических сбоев, пользовательскими отзывами и надёжностью использования в корпоративной инфраструктуре.

Итоговая шкала риска — индекс от 0 до 99 — отражает вероятность критических ошибок или нестабильной работы при эксплуатации в сложных сценариях. У Grok этот индекс составил 6, что практически исключает угрозу сбоя.

ChatGPT в исследовании занял одну из нижних позиций. Его риск-индекс оказался максимальным — 99 баллов. Схожие значения получили Claude и Meta AI, а также ещё несколько решений, используемых в сфере генеративных языковых моделей. По мнению аналитиков Relum, высокая степень риска в сочетании с частыми искажениями делает подобные инструменты слабо пригодными в условиях, где требуется точность и контроль.

Исследование показало, что около 65% компаний в США уже внедрили ИИ-ассистентов в повседневную работу. Почти половина сотрудников призналась, что передавала таким системам конфиденциальную информацию, в том числе внутренние документы и деловые отчёты.

* Корпорация Meta признана экстремистской организацией и запрещена на территории Российской Федерации.

Оригинал публикации на сайте CISOCLUB: "ИИ Grok от Илона Маска обошёл ChatGPT и Gemini по уровню достоверности ответов".

Смотреть публикации по категориям: Новости | Мероприятия | Статьи | Обзоры | Отчеты | Интервью | Видео | Обучение | Вакансии | Утечки | Уязвимости | Сравнения | Дайджесты | Прочее.

Подписывайтесь на нас: VK | Rutube | Telegram | Дзен | YouTube.