68,9 тыс подписчиков

ИИ против математиков: неожиданный провал технологий

6 декабря 20246 дек 2024

15,6 тыс

2 мин

Последние достижения в области искусственного интеллекта (ИИ) могут поставить в неловкое положение юных математиков-вундеркиндов. Большие языковые модели, такие как ChatGPT от OpenAI, теперь справляются почти со всеми математическими тестами, с которыми сталкиваются. И всё же ИИ едва ли затронул передовые исследования в области математики, что свидетельствует о том, что его способность справляться с тестами не отражает реальные математические навыки. В препринте, опубликованном в прошлом месяце, научно-исследовательский институт Epoch AI собрал 60 математиков-экспертов, чтобы поднять планку с помощью самого сложного математического теста, который они смогли придумать. Ведущие модели правильно ответили менее чем на 2% вопросов, что показывает, насколько они далеки от того, чтобы изменить отрасль. «Вклад [ИИ] в математическое сообщество невелик, но люди видят потенциал, — говорит Кевин Баззард, математик из Имперского колледжа в Лондоне. — Если у вас есть система, которая может превзойти

Оглавление

Беспрецедентный эксперимент Epoch AI
Мнение экспертов
Текущие достижения и ограничения

Беспрецедентный эксперимент Epoch AI

В препринте, опубликованном в прошлом месяце, научно-исследовательский институт Epoch AI собрал 60 математиков-экспертов, чтобы поднять планку с помощью самого сложного математического теста, который они смогли придумать. Ведущие модели правильно ответили менее чем на 2% вопросов, что показывает, насколько они далеки от того, чтобы изменить отрасль.

Мнение экспертов

«Вклад [ИИ] в математическое сообщество невелик, но люди видят потенциал, — говорит Кевин Баззард, математик из Имперского колледжа в Лондоне. — Если у вас есть система, которая может превзойти эту базу данных, то для математиков всё кончено».

Текущие достижения и ограничения

Обученные на огромных объёмах текста, созданного людьми в интернете и других источниках, большие языковые модели выявляют закономерности, чтобы предсказывать наиболее вероятную последовательность слов, чисел или символов в ответ на запросы.

В последнее время модели действительно впечатляют: модель o1 от OpenAI может набрать более 90% баллов в большинстве предыдущих математических тестов, а модель DeepMind справилась с заданиями на серебряную медаль Международной математической олимпиады.

Проблемы существующих тестов

Эксперты предупреждают, что эти результаты завышают представление о математических способностях ИИ. Текущие тесты в основном ориентированы на математику уровня средней школы или бакалавриата, что далеко от исследовательского уровня.

Кроме того, модели имеют несправедливое преимущество из-за загрязнения данных. «Они жульничают», — говорит Ченг Сюй, аспирант Дублинского университета.

Уникальная методология тестирования

Epoch AI решила создать принципиально новый подход. Организаторы заплатили ведущим математикам за создание невероятно сложных оригинальных задач. Они просили участников использовать все известные уловки, чтобы сделать задачи максимально сложными.

Для защиты данных математики обсуждали проблемы только на зашифрованных серверах Signal и избегали онлайн-редакторов.

Результаты исследования

Команда протестировала шесть лучших LLM-моделей примерно на 150 вопросах. Моделям разрешили создавать вычислительные подпрограммы и даже использовать подсказки вроде «продолжайте работать». Несмотря на это, ни одна модель не набрала более 2% баллов.

Взгляд в будущее

Мнения экспертов расходятся. Кевин Баззард считает, что моделям нужно лучше понимать математические приёмы. Эллиот Глейзер из Epoch AI ожидает, что машины справятся с тестом при его жизни.

Джереми Авигад видит в ИИ скорее инструмент расширения возможностей, чем конкурента. Майя Фрейзер беспокоится о социальных последствиях, включая возможное неравенство доступа к передовым технологиям.

Заключение

Пока что искусственный интеллект остается далеким от настоящего математического мышления. Однако эксперты не исключают, что в будущем ситуация может кардинально измениться.

-------------ПОДДЕРЖАТЬ АВТОРА ДОНАТОМ ----------------

Много интересного - в телеграм "Математика не для всех"
Взгляд на философию со стороны технаря - телеграм "Философия не для всех"