40 подписчиков

GPT-5 достигла 58% на пути к настоящему искусственному интеллекту: первое научное измерение AGI

18 октября 202518 окт 2025

5 мин

Главная мысль: консорциум из 28 ведущих AI-лабораторий во главе с Йошуа Бенджио впервые количественно определил AGI через психометрическую модель Cattell-Horn-Carroll, разработанную для оценки человеческого интеллекта. Результат оказался отрезвляющим: GPT-4 достигла лишь 27% от уровня образованного взрослого человека, GPT-5 — 58%, демонстрируя двукратный рост за два года, но оставляя половину пути к AGI нереализованной. Десятилетиями индустрия искусственного интеллекта избегала четкого определения AGI, предпочитая размытые формулировки вроде "системы, способной выполнять любую интеллектуальную задачу". OpenAI и Microsoft довели абсурд до предела, определив AGI как "ИИ, приносящий $100 млрд прибыли ежегодно" — критерий, имеющий к когнитивным способностям такое же отношение, как капитализация компании к её инновационности. В октябре 2025 года исследователи из Center for AI Safety, университетов Беркли, Оксфорда, MIT и 25 других институтов опубликовали работу "A Definition of AGI", где в

Оглавление

Методология: от человеческой психометрии к оценке машин
Результаты тестирования: "зубчатый" профиль современных моделей
Структурные ограничения: почему оставшиеся 42% — самые сложные

Главная мысль: консорциум из 28 ведущих AI-лабораторий во главе с Йошуа Бенджио впервые количественно определил AGI через психометрическую модель Cattell-Horn-Carroll, разработанную для оценки человеческого интеллекта. Результат оказался отрезвляющим: GPT-4 достигла лишь 27% от уровня образованного взрослого человека, GPT-5 — 58%, демонстрируя двукратный рост за два года, но оставляя половину пути к AGI нереализованной.

Десятилетиями индустрия искусственного интеллекта избегала четкого определения AGI, предпочитая размытые формулировки вроде "системы, способной выполнять любую интеллектуальную задачу". OpenAI и Microsoft довели абсурд до предела, определив AGI как "ИИ, приносящий $100 млрд прибыли ежегодно" — критерий, имеющий к когнитивным способностям такое же отношение, как капитализация компании к её инновационности.

В октябре 2025 года исследователи из Center for AI Safety, университетов Беркли, Оксфорда, MIT и 25 других институтов опубликовали работу "A Definition of AGI", где впервые применили строгую психометрическую методологию для оценки AI-систем. Среди авторов — Йошуа Бенджио (пионер глубокого обучения), Дэн Хендрикс, Дон Сонг и Эрик Шмидт, что придаёт работе вес научного консенсуса.

Методология: от человеческой психометрии к оценке машин

В основе подхода лежит теория Cattell-Horn-Carroll — наиболее эмпирически подтверждённая модель человеческого интеллекта, разработанная на основе 70 лет исследований и факторного анализа 461 классического исследования когнитивных способностей. CHC разбивает интеллект на десять фундаментальных доменов: общие знания и здравый смысл, чтение и письмо, математические способности, on-the-spot рассуждение (решение новых задач), рабочая память, долговременная память и обучение, извлечение знаний, визуальная обработка, аудиальная обработка, скорость обработки информации.

Ключевое определение AGI из работы: "AI-система, которая сопоставимо с образованным взрослым человеком проявляет широту (versatility) и глубину (proficiency) когнитивных способностей". Это не абстракция — каждую из десяти способностей можно измерить стандартными психометрическими показателями, адаптированными для AI.

Результаты тестирования: "зубчатый" профиль современных моделей

Применение CHC-фреймворка к GPT-4 и GPT-5 раскрыло драматическую неравномерность когнитивного профиля. GPT-5 демонстрирует близкий к человеческому уровень в знаниево-интенсивных доменах — чтение/письмо (около 9 из 10 баллов), математика (8/10), общие знания (7,5/10). Однако критические провалы проявляются в фундаментальных когнитивных механизмах: долговременная память и её извлечение (около 1/10), рабочая память (3/10), визуальная обработка (4/10), аудиальная обработка (2/10), скорость реакции (3/10).

Особенно показательна динамика между поколениями. GPT-4 (2023) получила агрегированную оценку в 27% от полного AGI-профиля, GPT-5 (2025) — 58%. Это означает более чем двукратный рост за два года, что на первый взгляд впечатляет. Однако глубокий анализ показывает, что рост произошёл преимущественно за счёт доменов, где модели уже были сильны — математика, код, текстовое мышление.

Структурные ограничения: почему оставшиеся 42% — самые сложные

Слабые стороны современных LLM не случайны — они отражают фундаментальные архитектурные ограничения. Отсутствие долговременной памяти связано с контекстными окнами: даже при 200 тысячах токенов модели не могут эффективно индексировать и извлекать информацию так, как это делает человеческий гиппокамп. Рабочая память ограничена вниманием — трансформерные архитектуры теряют детализацию при обработке множественных зависимостей одновременно.

Визуальная и аудиальная обработка страдают от недостатка мультимодальной интеграции на уровне предтренинга. Хотя GPT-5 показывает 84,2% на MMMU (мультимодальное понимание), это не эквивалентно человеческому визуальному восприятию, где зрение интегрировано с пространственным мышлением, моторными навыками и долговременной визуальной памятью.

Скорость обработки — возможно, самое парадоксальное ограничение. GPT-5 обрабатывает токены быстрее любого человека, но "реакционное время" в смысле CHC означает способность мгновенно переключаться между задачами, адаптироваться к новым контекстам и реагировать на непредвиденные изменения без переобучения.

Стратегические импликации: дорожная карта к AGI

Если экстраполировать текущий темп роста (от 27% к 58% за два года), следующая модель может достичь 85-90% к 2027 году. Однако линейная экстраполяция обманчива — оставшиеся домены требуют качественно иных архитектурных решений, а не простого масштабирования. Долговременная память потребует внешних векторных баз данных с семантической индексацией. Рабочая память — новых механизмов внимания с иерархической композицией. Визуальное и аудиальное восприятие — end-to-end мультимодального предтренинга, а не post-hoc склейки модальностей.

Работа Бенджио и коллег создаёт измеримую дорожную карту: вместо абстрактных обещаний AGI "через 2-5 лет" индустрия получила конкретные метрики по десяти доменам. Компании теперь могут целенаправленно атаковать слабые места — разрабатывать архитектуры с встроенной долговременной памятью, улучшать мультимодальную интеграцию, создавать механизмы быстрой адаптации.

Конец эпохи абстрактных обещаний AGI

CHC-фреймворк для AGI — это не просто академическое упражнение, а фундаментальный сдвиг в оценке прогресса AI. Впервые за историю у нас есть объективная, воспроизводимая метрика близости к человеческому интеллекту. GPT-5 на 58% — это одновременно триумф (удвоение за два года) и отрезвление (половина пути впереди, причём самая сложная).

Ключевой инсайт работы: современные LLM демонстрируют "зубчатый интеллект" — выдающиеся способности в узких доменах при критических провалах в фундаментальных механизмах. Это объясняет парадокс, когда GPT-5 побеждает экспертов в математических олимпиадах, но не может запомнить детали беседы 10 минут назад.

Оставшиеся 42% до AGI потребуют не просто больше вычислений и данных, а качественно новых архитектурных прорывов. И теперь, благодаря работе 28 ведущих лабораторий, мы точно знаем, в каких направлениях эти прорывы необходимы.