Когда весь мир восхищался появлением ChatGPT, мало кто знал, что это был лишь неожиданный побочный результат работы OpenAI. На самом деле компания уже несколько лет выстраивала стратегию, направленную на создание универсальных агентов искусственного интеллекта (AI Agents) с развитыми способностями к рассуждению.
Неожиданное начало: математика
История успеха OpenAI началась не с ChatGPT, а с математики. В 2022 году исследователь Хантер Лайтман (Hunter Lightman) присоединился к команде MathGen, которая занималась обучением ИИ-моделей решению задач из школьных математических олимпиад. Именно эта работа стала отправной точкой для развития моделей с навыками логического рассуждения.
Математика была выбрана не случайно — она служит идеальной проверкой логики и аналитических способностей. Успехи модели в этой области означали, что она начала демонстрировать зачатки настоящего мышления. Позже одна из моделей OpenAI даже завоевала золотую медаль на Международной математической олимпиаде (IMO).
Прорыв «Strawberry»: революция в рассуждениях
Ранние версии GPT хорошо справлялись с текстом, но испытывали трудности с базовой математикой. В 2023 году OpenAI совершил прорыв, объединив три технологии: большие языковые модели (LLM), обучение с подкреплением (RL) и вычисления во время тестирования (Test-time computation). Этот подход получил название «цепочка рассуждений» (Chain-of-Thought, CoT).
Результатом стала модель o1, представленная осенью 2024 года. Её появление привлекло внимание всей индустрии, а 21 ключевой исследователь из OpenAI стал самым востребованным кадровым резервом в Кремниевой долине.
Природа ИИ-рассуждений
Открытым остаётся вопрос: действительно ли ИИ «рассуждает» или просто имитирует этот процесс? Исследователи OpenAI придерживаются прагматичного взгляда. Как объясняет Эль Кишки (El Kishky), если модель эффективно использует вычислительные ресурсы для поиска ответа, это можно считать рассуждением.
Натан Ламберт (Nathan Lambert) из организации AI2 приводит аналогию: «ИИ-рассуждения по отношению к человеческому мышлению — это как самолёт по отношению к полёту птицы». Разные механизмы, но схожий результат.
Следующий рубеж: от объективных задач к субъективным
Современные ИИ-агенты успешно справляются с чёткими задачами, например, помогают программистам. Но когда речь заходит о субъективных запросах вроде «найди лучший паркинг» или «спланируй идеальное путешествие», они часто ошибаются. Проблема, по словам Лайтмана, заключается в данных.
OpenAI уже тестирует новые методы обучения, позволяющие моделям решать задачи без однозначных ответов. Например, модель-победитель IMO использует несколько «агентов-клонов», исследующих разные пути решения, а затем выбирает оптимальный вариант.
Компания продолжает двигаться к своей цели — созданию универсального ИИ-агента, способного выполнять любые задачи в интернете, понимая предпочтения пользователя. Однако на этом пути её ждёт жёсткая конкуренция с такими гигантами, как Google, Anthropic, xAI и Meta.