Эксклюзив: Согласно тесту ORCA, ИИ-модели стали хуже справляться с арифметикой, хотя и улучшили форматирование ответов. — theregister.com
Эксклюзив Современные большие языковые модели (LLM) — это машины для предсказаний, и, как таковые, они могут находить лишь наиболее вероятное решение задач, которое не всегда является правильным. Хотя популярные модели в целом стали лучше справляться с математикой, даже лучшая из них, Gemini 3 Flash, получила бы оценку «C» при буквенной аттестации.
Исследователи из Omni Calculator, создателей онлайн-калькуляторов для специфических задач, протестировали новый набор ИИ-моделей с помощью собственного бенчмарка ORCA, который включает 500 практических математических вопросов.
В их первоначальной оценке, проведенной в ноябре прошлого года, модели ChatGPT-5 от OpenAI, Gemini 2.5 Flash от Google, Claude Sonnet 4.5 от Anthropic, Grok 4 от xAI и DeepSeek V3.2 (alpha) от DeepSeek показали плохие результаты, набрав 63 процента или меньше по математическим задачам.
В последнем наборе участников — ChatGPT-5.2, Gemini 3 Flash, Grok 4.1 и DeepSeek V3.2 (стабильная версия). Sonnet 4.5 не переоценивалась, поскольку не претерпела изменений, а ее преемник не был выпущен в период тестирования.
Во втором раунде тестирования, материалы которого были предоставлены The Register до публикации, все модели продемонстрировали улучшение, за исключением Grok-4.1, которая показала регресс.
Точность Gemini 3 Flash достигла 72,8 процента, что на 9,8 процентных пункта выше, чем у предшественника. DeepSeek V3.2 достигла 55,2 процента, увеличив результат на 3,2 процентных пункта по сравнению с альфа-версией. ChatGPT 5.2 показала точность 54,0 процента, что на 4,6 процентных пункта больше. А Grok 4.1 опустилась до 60,2 процента, потеряв 2,6 процентных пункта.
Изображение графика с результатами теста ORCA для ИИ-моделей — Нажмите для увеличения
«Калькулятор предсказуем, — заявил в своем заявлении Давид Сиуда, исследователь ORCA. — Задайте ему один и тот же вопрос сегодня или через год, и ответ останется прежним. ИИ так не работает. Эти системы предсказывают следующее вероятное слово на основе шаблонов. Математически возможно, что модель сегодня даст правильный ответ, а завтра — нет».
Исследователи попытались оценить изменчивость ответов моделей с помощью метрики под названием «нестабильность» — показателя того, как часто модели меняли свои ответы при повторном задании одного и того же вопроса.
Gemini 3 Flash оказалась самой стабильной, изменив ответ лишь в 46,1 процента случаев некорректных ответов. ChatGPT, по данным исследователей, меняла свой ответ в 65,2 процента случаев. А DeepSeek V3.2 меняла ответ в 68,8 процента ошибочных случаев.
Исследователи ORCA отмечают, что улучшение производительности моделей с течением времени различается в разных доменах. По их словам, у DeepSeek производительность по вопросам Биологии и Химии выросла с 10,5 процента до 43,9 процента точности. А Gemini 3 Flash достигла точности 93,2 процента в Математике и Конверсиях, по сравнению с 83 процентами ранее. При этом Grok 4.1 потеряла 9 процентных пунктов в точности ответов на вопросы о Здоровье и Спорте и 5,3 процентных пункта в Биологии и Химии.
Исследователи предполагают, что недавние обновления Grok могли отдать приоритет другим возможностям, не связанным с количественным рассуждением.
Отметив, что ошибки вычислений теперь составляют 39,8 процента от всех ошибок (по сравнению с 33,4 процента ранее), а ошибки округления снизились до 25,8 процента (с 34,7 процента), группа ORCA пришла к выводу, что ИИ-модели лучше справляются с правильным форматированием математических данных, но по-прежнему испытывают трудности с арифметикой.
«ИИ-модели, по сути, являются машинами для предсказаний, а не логическими машинами, — сообщил Сиуда The Register по электронной почте. — Поскольку они работают на вероятности, они, по сути, угадывают следующее наиболее вероятное число или слово на основе шаблонов, которые видели ранее. Это похоже на студента, который зазубрил все ответы в учебнике по математике, но на самом деле так и не научился складывать».
Сиуда добавил, что об этом свойстве моделей было известно и ранее, и ничего не изменилось.
«Они могут давать правильный ответ в большинстве случаев, но как только вы даете им уникальную или хитрую задачу, или многоэтапное задание, они спотыкаются, потому что на самом деле ничего не вычисляют, — сказал он. — Возможно, невозможно полностью устранить этот разрыв с помощью текущих технологий, но если мы достаточно хорошо объединим LLM с функцией вызова (function calling), это может быть решено».
Function calling — передача арифметических операций детерминированному источнику — является одним из способов обойти слабое математическое восприятие моделей.
«Крупные ИИ-компании, такие как Google и OpenAI, уже делают это, заставляя ИИ вызывать функцию для выполнения фактического расчета», — пояснил Сиуда. «Настоящая головная боль возникает с длинными, запутанными задачами. ИИ должен отслеживать каждый мелкий результат на каждом этапе, и обычно он перегружается или путается».
Другим возможным путем улучшения может стать обучение моделей проверять ответы с помощью формальных доказательств. Как отмечалось в Nature в ноябре прошлого года, DeepMind от Google разработала подход, который завоевал серебряную медаль на Международной математической олимпиаде благодаря обучению с подкреплением на основе доказательств, разработанных с использованием языка программирования и помощника доказательств Lean.
Но пока никому из ИИ доверять не стоит. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Thomas Claburn