У искусственного интеллекта теперь есть IQ. Что это значит на практике
Представьте: открываете сайт и видите привычную кривую нормального распределения — как в учебнике по психологии. Только вместо людей на ней расположены языковые модели. GPT, Claude, Gemini и ещё полсотни других, каждая со своим числом. Одни ближе к «среднему», другие — далеко за отметкой 150.
Эта идея за одну неделю разделила технологическое сообщество на два непримиримых лагеря. И у каждого стороны есть весомые аргументы.
Что такое IQ-рейтинг для ИИ и как он устроен
Проект агрегирует 12 известных тестов производительности языковых моделей и группирует их по четырём направлениям:
- Абстрактное мышление — тесты на распознавание паттернов, разработанные для проверки «текучего интеллекта». Считаются одними из самых сложных в индустрии.
- Математика — задачи от олимпийского уровня до исследовательских доказательств теорем.
- Программирование — реальные инженерные задачи: написание кода, работа с терминалом, научные вычисления.
- Академические знания — экспертные вопросы из множества дисциплин, включая форматы, требующие знаний уровня PhD.
Каждый результат теста переводится в IQ-эквивалент через специально откалиброванные кривые. Финальный IQ модели — среднее арифметическое четырёх измерений.
Важная деталь: простые тесты или те, где модели могли «подглядеть» ответы в обучающих данных, имеют искусственно ограниченный максимум. Это защита от завышения рейтингов.
Почему бизнес это полюбил
Рынок языковых моделей в 2024–2025 году стал непрозрачным до абсурда. Каждый провайдер публикует собственные бенчмарки, выбирая те, где его модель выглядит лучше всего. Сравнительные таблицы разрослись до сотен строк и десятков столбцов.
Для нетехнического руководителя — директора по маркетингу, CEO небольшой компании, менеджера по продукту — ориентироваться в этом хаосе практически невозможно.
Единственное число на привычной кривой решает эту проблему моментально. Не нужно понимать разницу между SWE-Bench и GPQA Diamond. Достаточно увидеть, что модель А находится на уровне «145», а модель Б — «118», и уже есть отправная точка для разговора.
Корпоративные технологи отреагировали позитивно: «Прогресс моделей воспринимается куда легче, когда он отображён подобным образом, а не в виде очередной огромной таблицы-рейтинга».
Почему исследователи против
Аргумент критиков прост и убедителен: языковые модели принципиально неравномерны.
Одна модель может решать задачи уровня профессионального математика и при этом путаться в простых логических рассуждениях, которые восьмилетний ребёнок решит за секунду. Другая — писать идеальный код, но ошибаться в фактах из общедоступных источников.
Когда вы усредняете эти способности в одно число, вы теряете именно ту информацию, которая важна для принятия решений. Модель с IQ 140 может быть совершенно бесполезна для вашей конкретной задачи — и лучше неё справится модель с IQ 120, у которой профиль способностей совпадает с тем, что вам нужно.
«Карта — не территория», — сформулировали критики. Рейтинг удобен, но реальность сложнее.
Как использовать подобные рейтинги на практике
Если вы выбираете языковую модель для бизнеса, вот рабочий подход, который учитывает и ценность, и ограничения агрегированных рейтингов:
1. Используйте IQ как фильтр, а не как ответ Агрегированный балл подходит для первичного отсева — убрать явно слабые варианты и сформировать список из 2–3 финалистов. Дальше нужно смотреть глубже. 2. Изучайте профиль по измерениям Если ваша задача — автоматизация написания кода, программный субиндекс важнее математического или академического. Для аналитики данных — наоборот. 3. Тестируйте на своих данных Подготовьте 10–20 типичных запросов из реального рабочего процесса и прогоните через финалистов. Это займёт пару часов, но даст информацию, которую ни один рейтинг не заменит. 4. Считайте стоимость Модели с высоким IQ обычно стоят значительно дороже в расчёте на запрос. Разрыв в 15–20 пунктов редко оправдывает двух-трёхкратную разницу в цене для стандартных задач: написания текстов, ответов на вопросы, обработки документов. 5. Следите за датой обновления рейтинга Рынок моделей обновляется быстро. Рейтинг трёхмесячной давности уже может не отражать актуальное состояние — новые версии моделей выходят регулярно.
Что это говорит о рынке ИИ в целом
Появление IQ-рейтингов для языковых моделей — симптом зрелости рынка. Когда технология превращается в базовую инфраструктуру, бизнес начинает требовать простых инструментов сравнения.
Мы прошли этот путь с облачными сервисами, с CRM-системами, с инструментами аналитики. Рейтинги, квадранты, индексы — это не упрощение ради упрощения. Это ответ на реальную потребность: помочь нетехническим руководителям принимать обоснованные решения в сложных технических категориях.
IQ для ИИ несовершенен. Критика обоснована. Но сам факт публичной дискуссии вокруг методологии оценки — хороший знак. Рынок движется к большей прозрачности, и это выгодно всем, кто принимает реальные бизнес-решения об использовании ИИ-инструментов.
-
Автоматизируешь контент или бизнес с помощью ИИ? Бот @contentrunbot и база знаний ContentRun - инструменты и практика без воды. Оба бесплатно.