Добавить в корзинуПозвонить
Найти в Дзене
Новости науки

ИИ уступил математикам в строгом тесте на решение новых задач

Искусственный интеллект прошел один из самых строгих тестов по математике и уступил ведущим специалистам. Об этом пишет Nature со ссылкой на результаты проекта First Proof&
В тест вошли десять задач исследовательского уровня. Их подготовили математики из разных областей. Важное условие состояло в том, что задачи раньше не публиковались в научной литературе и не появлялись в интернете. Поэтому системы ИИ не могли просто воспроизвести готовое решение из обучающих данных.
Ответы моделей проверяли 30 математиков. Они работали анонимно и оценивали решения по строгим научным критериям. Организаторы заявили, что это первый тест такого типа, который одновременно объединил три условия: задачи уровня реальных исследований, отсутствие этих задач в открытых источниках и формальную проверку экспертами.
Лучший результат показала система команды Швейцарской высшей технической школы Цюриха. Она решила шесть задач из десяти. Ее подход использовал ответы ChatGPT, которые затем проверял и улучшал «сов
Новости науки.
Новости науки.

Искусственный интеллект прошел один из самых строгих тестов по математике и уступил ведущим специалистам. Об этом пишет Nature со ссылкой на результаты проекта First Proof&

В тест вошли десять задач исследовательского уровня. Их подготовили математики из разных областей. Важное условие состояло в том, что задачи раньше не публиковались в научной литературе и не появлялись в интернете. Поэтому системы ИИ не могли просто воспроизвести готовое решение из обучающих данных.

Ответы моделей проверяли 30 математиков. Они работали анонимно и оценивали решения по строгим научным критериям. Организаторы заявили, что это первый тест такого типа, который одновременно объединил три условия: задачи уровня реальных исследований, отсутствие этих задач в открытых источниках и формальную проверку экспертами.

Лучший результат показала система команды Швейцарской высшей технической школы Цюриха. Она решила шесть задач из десяти. Ее подход использовал ответы ChatGPT, которые затем проверял и улучшал «совет» из трех крупных чат-ботов.

Ученые построили автоматическую надстройку над ChatGPT. Далее шли модель OpenAI ChatGPT 5.5 Pro без дополнительной надстройки и система, которая в основном использовала Gemini 3.1 Pro.

Такие надстройки называют harness. Это автоматические системы, которые задают модели вопрос, получают ответ, затем могут отправить его на проверку другой модели и повторить этот цикл несколько раз. Такой подход помогает отсеивать часть ошибок, но не делает систему равной сильному математику.

Один из главных смыслов теста — проверить не знание известных решений, а способность ИИ работать с новой задачей. Это особенно важно для математики, где формально правильный ответ часто требует длинного доказательства, а небольшая ошибка может разрушить весь результат.

Авторы проекта считают, что будущие версии First Proof помогут понять, насколько полезен ИИ для математиков. Такие системы могут не только пытаться решать задачи самостоятельно, но и проверять доказательства, искать слабые места в рассуждениях и помогать исследователям как ассистенты.

Ранее ИИ уже показал заметные успехи в математике. В мае чат-бот OpenAI решил задачу, связанную с 80-летней проблемой математика Пала Эрдеша. Однако новый тест показал, что даже сильные модели пока не заменяют экспертов в задачах исследовательского уровня.