31 подписчик

AI против лучших математиков: как o4-mini бросил вызов человеческому интеллекту

28 мая 202528 мая 2025

3 мин

В мае 2025 года мир стал свидетелем уникального события: искусственный интеллект o4-mini-medium сразился с шестью командами сильнейших молодых математиков, решая задачи уровня Филдсовской премии. Этот эксперимент стал очередной вехой в стремительном развитии AI-математики и вызвал бурные дискуссии о будущем профессии математика. Эксперимент: AI Организатором соревнования выступила команда Epoch AI. В конкурсе приняли участие около 40 математиков, разделённых на восемь команд, каждая из которых включала экспертов и талантливых студентов. Их соперником стал AI o4-mini-medium, которому предстояло решать те же задачи, что и людям. Испытание проходило на базе набора задач FrontierMath, созданного в 2024 году при участии лауреатов Филдсовской премии, включая знаменитого Теренса Тао. Всего в базе — 300 задач, охватывающих уровни от старших курсов бакалавриата до задач, способных поставить в тупик даже признанных гениев. В рамках соревнования участникам (и AI) за 4,5 часа нужно было решить 23

Эксперимент: AI

Организатором соревнования выступила команда Epoch AI. В конкурсе приняли участие около 40 математиков, разделённых на восемь команд, каждая из которых включала экспертов и талантливых студентов. Их соперником стал AI o4-mini-medium, которому предстояло решать те же задачи, что и людям.

Испытание проходило на базе набора задач FrontierMath, созданного в 2024 году при участии лауреатов Филдсовской премии, включая знаменитого Теренса Тао. Всего в базе — 300 задач, охватывающих уровни от старших курсов бакалавриата до задач, способных поставить в тупик даже признанных гениев.

В рамках соревнования участникам (и AI) за 4,5 часа нужно было решить 23 задачи, среди которых были как «универсальные» вопросы для сильных студентов, так и сложнейшие задачи для экспертов.

Результаты:

AI o4-mini-medium решил около 22% задач, что превысило средний результат человеческих команд (19%). Однако если учитывать, что разные команды решали разные задачи, а итоговый «человеческий максимум» — это сумма всех уникально решённых задач, то люди в целом справились примерно с 35% заданий.

AI обошёл шесть из восьми команд, а по скорости решения задач был вне конкуренции: на одну задачу у него уходило 5–20 минут, тогда как у человека — в среднем 40 минут. При этом эксперты отмечают, что ограничение по времени могло сыграть против людей: в долгосрочных задачах человеческий интеллект часто раскрывается сильнее.

Почему это важно: AI-математики на пороге прорыва

FrontierMath — не просто набор задач, а новый стандарт для оценки математических способностей AI. В отличие от прежних тестов, здесь акцент сделан не на знании формул, а на умении рассуждать и строить доказательства. Задачи охватывают топологию, алгебраическую геометрию, комбинаторику и теорию чисел.

AI уже способен конкурировать с сильнейшими студентами и даже отдельными экспертами. По прогнозу бывшего CEO Google Эрика Шмидта, в ближайшие 1–2 года мы увидим настоящих «AI-математиков» и «суперпрограммистов», способных решать задачи, которые пока не под силу человеку.

Ограничения и нюансы: пока не полная победа

Организаторы подчёркивают, что результаты соревнования не отражают абсолютный максимум человеческих возможностей. Во-первых, команды были собраны из представителей бостонского математического сообщества, и не все области были равномерно покрыты экспертами. Во-вторых, ограничение по времени и специфика задач могли повлиять на результат.

Если учитывать более широкий подход (например, когда любая команда, решившая задачу, засчитывается в общий зачёт), человеческий результат возрастает до 35%, а при пересчёте с учётом сложности задач — до 30–52%. AI в этом случае набирает около 37%.

В чём сила AI: скорость, широта, но не всегда глубина

AI обладает огромной базой знаний и способен быстро переключаться между разными областями математики. Однако FrontierMath специально минимизирует роль энциклопедических знаний, делая упор на чистое рассуждение. Это позволяет более честно сравнивать AI и человека.

Тем не менее, остаётся открытым вопрос: действительно ли AI понимает суть математических рассуждений, или просто угадывает правильные ответы, опираясь на статистику и паттерны? Исследователи признают, что механизмы успеха AI пока остаются загадкой.

Будущее: AI-математики и новые

Эксперимент с o4-mini-medium показал: AI способен решать сложнейшие задачи, а в некоторых аспектах — опережать людей. Однако до полного превосходства ещё есть путь: AI пока не может заменить коллективный опыт и интуицию лучших математиков мира.

Главный вопрос — сможет ли AI не только решать задачи из тестов, но и делать настоящие научные открытия, продвигая математику вперёд? Ответ на него мы, возможно, получим уже в ближайшие годы.

Ссылки и источники:
Epoch AI Research в X (Twitter)