Перевод статьи “At Secret Math Meeting, Researchers Struggle to Outsmart AI” Scientific American JUNE 6, 2025
Ведущие математики мира были ошеломлены тем, насколько искусны искусственный интеллект в своей работе
Ведущие математики мира были ошеломлены тем, насколько искусны искусственный интеллект в своей работе
В выходные в середине мая был созван тайный математический конклав. Тридцать самых известных математиков мира ездили в Беркли, штат Калифорния, а некоторые из них приехали из Великобритании. Члены группы столкнулись в разборке с чат-ботом «рассуждения», которому было поручено решать проблемы, которые они придумали для проверки его математической меты. После того, как в течение двух дней задавали боту вопросы на уровне профессора, исследователи были ошеломлены, обнаружив, что он способен ответить на некоторые из самых сложных в мире решаемых проблем. "У меня есть коллеги, которые буквально сказали, что эти модели приближаются к математическому гению", - говорит Кен Оно, математик из Университета Вирджинии, лидер и судья на встрече.
Чат-бот, о котором идет речь, работает на базе o4-mini, так называемой крупноязычной модели (LLM) для рассуждений. Он был обучен OpenAI, чтобы быть способным делать очень сложные вычисления. Эквивалент Google, Gemini 2.5 Flash, имеет схожие возможности. Как и LLM, которые поддерживали более ранние версии ChatGPT, o4-mini учится предсказывать следующее слово в последовательности. Однако по сравнению с более ранними LLM, o4-mini и его эквиваленты являются более легкими, более гибкими моделями, которые тренируются на специализированных наборах данных с более сильным усилением от людей. Подход приводит к тому, что чат-бот способен гораздо глубже погружаться в сложные задачи в математике, чем традиционные LLM.
Чтобы отслеживать прогресс o4-mini, OpenAI ранее поручил Epoch AI, некоммерческой организации, которая сравнивает LLM, придумать 300 математических вопросов, решения которых еще не опубликованы. Даже традиционные LLM могут правильно ответить на многие сложные математические вопросы. Тем не менее, когда Epoch AI задал этим вопросам нескольким таким моделям, которые были не похожи на те, на которых они были обучены, наиболее успешные смогли решить менее 2 процентов, показывая, что этим LLM не хватало способности рассуждать. Но o4-mini окажется совсем другим.
Epoch AI наняла Эллиота Глейзера, который недавно закончил докторскую степень по математике, присоединиться к новому сотрудничеству для эталона, прозваванного FrontierMath, в сентябре 2024 года. Проект собрал новые вопросы на разных уровнях сложности, при этом первые три уровня охватывали задачи бакалавриата, магистратуры и научных исследований. К апрелю 2025 года Глейзер обнаружил, что o4-mini может решить около 20 процентов вопросов. Затем он перешел к четвертому уровню: набор вопросов, которые были бы сложными даже для академического математика. Лишь небольшая группа людей в мире была бы способна разработать такие вопросы, не говоря уже о том, чтобы ответить на них. Участвовавшие математики должны были подписать соглашение о неразглашении, требующее от них общения исключительно через приложение для обмена сообщениями Signal. Другие формы контакта, такие как традиционная электронная почта, потенциально могут быть отсканированы LLM и непреднамеренно обучить его, тем самым загрязняя набор данных.
Каждая задача, которую o4-mini не смог решить, принесла бы математику, который придумал ее, награду в размере 7500 долларов. Группа добилась медленного, устойчивого прогресса в поиске вопросов. Но Глейзер хотел ускорить процесс, поэтому Epoch AI провел личную встречу в субботу, 17 мая, и в воскресенье, 18 мая. Там участники завершают последнюю партию вопросов-запросов. 30 участников были разделены на группы по шесть человек. В течение двух дней ученые соревновались с самими собой, чтобы разработать проблемы, которые они могли бы решить, но споткнулись бы с ботом рассуждений с искусственным интеллектом.
К концу того субботнего вечера Оно был разочарован ботом, чья неожиданная математическая масти препятствовала прогрессу группы. "Я придумал проблему, которую эксперты в моей области признали бы открытым вопросом в теории чисел - хорошей проблемой уровня доктора философии", - говорит он. Он попросил o4-mini решить вопрос. В течение следующих 10 минут Оно в ошеломленной тишине наблюдал, как бот разворачивал решение в режиме реального времени, показывая процесс рассуждений на этом пути. Бот потратил первые две минуты на поиск и освоение соответствующей литературы в этой области. Затем он написал на экране, что хочет сначала попробовать решить более простую «игрушечную» версию вопроса, чтобы научиться. Через несколько минут он написал, что, наконец, готов к решению более сложной проблемы. Через пять минут после этого o4-mini представил правильное, но дерзкое решение. "Это начало становиться действительно дерзким", - говорит Оно, который также является внештатным математическим консультантом Epoch AI. «И в конце говорится: «Не нужно цитировать, потому что таинственное число было рассчитано мной!»»
Побежденный, Оно прыгнул на Signal рано утром в воскресенье и предупредил остальных участников. "Я не был готов бороться с таким LLM, - говорит он, - я никогда раньше не видел такого рода рассуждений в моделях. Это то, чем занимается ученый. Это страшно».
Хотя группе в конечном итоге удалось найти 10 вопросов, которые помешали боту, исследователи были поражены тем, как далеко продвинулся ИИ за один год. Оно сравнил это с работой с «сильным сотрудником». Ян Хуэй Хэ, математик Лондонского института математических наук и первер использования искусственного интеллекта в математике, говорит: «Это то, чем занимался бы очень, очень хороший аспирант — на самом деле, больше».
Бот также был намного быстрее, чем профессиональный математик, занимая всего несколько минут, чтобы сделать то, что потребовалось бы такому человеку-эксперту недели или месяцы.
Хотя спарринг с o4-mini был захватывающим, его прогресс также был тревожным. Оно и Хе выражают обеспокоенность тем, что результатам o4-mini можно доверять слишком сильно. "Есть доказательство путем индукции, доказательство путем противоречия, а затем доказательство путем запугивания", - говорит он. «Если вы говорите что-то достаточное авторитетное, люди просто пугаются. Я думаю, что o4-mini освоил доказательство путем запугивания; он говорит все с такой уверенностью».
К концу встречи группа начала рассматривать, как может выглядеть будущее математиков. Обсуждения превратились в неизбежный «пятый уровень» - вопросы, которые даже лучшие математики не могли решить. Если ИИ достигнет этого уровня, роль математиков претерпит резкое изменение. Например, математики могут перейти к простому задаче вопросов и взаимодействию с ботами для рассуждений, чтобы помочь им открыть новые математические истины, так же, как это делает профессор с аспирантами. Таким образом, Оно предсказывает, что развитие творчества в высшем образовании будет ключом к поддержанию математики для будущих поколений.
"Я говорил своим коллегам, что это серьезная ошибка говорить, что обобщенный искусственный интеллект никогда не придет, [что] это всего лишь компьютер", - говорит Оно. «Я не хочу добавлять истерию, но в некотором смысле эти большие языковые модели уже превосходят большинство наших лучших аспирантов в мире».