Портала Maximum Truth провёл тестирование двенадцати различных чат-ботов, основанных на больших языковых моделях. Как оказалось, ChatGPT оказался не самым умным среди себе подобных, зато лидер рейтинга по уровню IQ превзошёл среднестатистического человека.
Для проверки способностей чат-ботов журналисты использовали IQ-тест Norway Mensa, состоящий из 35 вопросов, многие из которых сопровождены иллюстрациями. Сначала все чат-боты провалили тест, потому что не смогли правильно понять картинки. Но когда их описали текстом «как будто слепому умному человеку», они смогли успешно справиться с заданием.
По итогам тестирования ChatGPT-4 набрал 85 баллов, правильно ответив на 13 вопросов из 35 и заняв второе место. Лидером же стала ИИ-модель Claude-3 с результатом в 101 балл: это немного больше, чем у среднестатистического человека. Сам журналист, по его признанию, «выбил» в аналогичном тестировании только 85 баллов.
Третье место заняла предыдущая версия Claude (82 балла). На четвёртом оказался чат-бот Microsoft Copilot (79), на пятом — базовая версия Google Gemini (77,5), опередившая свою более продвинутую модификацию Advanced — та набрала только 76 баллов. Детище Илона Маска под названием Grok оказалось лишь на седьмой строчке импровизированного рейтинга.