Искусственный интеллект прошел один из самых строгих тестов по математике и уступил ведущим специалистам. Об этом пишет Nature со ссылкой на результаты проекта First Proof&
В тест вошли десять задач исследовательского уровня. Их подготовили математики из разных областей. Важное условие состояло в том, что задачи раньше не публиковались в научной литературе и не появлялись в интернете. Поэтому системы ИИ не могли просто воспроизвести готовое решение из обучающих данных.
Ответы моделей проверяли 30 математиков. Они работали анонимно и оценивали решения по строгим научным критериям. Организаторы заявили, что это первый тест такого типа, который одновременно объединил три условия: задачи уровня реальных исследований, отсутствие этих задач в открытых источниках и формальную проверку экспертами.
Лучший результат показала система команды Швейцарской высшей технической школы Цюриха. Она решила шесть задач из десяти. Ее подход использовал ответы ChatGPT, которые затем проверял и улучшал «сов