Найти в Дзене
DigEd

Почему LLM плохи в математике и как они могут стать лучше

Автор Вирадж Сингх «Что такое вычисления?» Когда Лекс Фридман в своем подкасте спросил об этом Стивена Вольфрама, генерального директора и основателя Wolfram Alpha, его ответ был прост: «Вычисления — это следование правилам. Вот и все.» Системы символьных вычислений, такие как Wolfram Alpha, Maplesoft, Mathematica, делают именно это: они следуют заранее установленным правилам, определенным программным обеспечением. Они детерминистичны. Эти системы, основанные на правилах, предсказуемы и достаточно точны для решения арифметики, геометрии, алгебры и исчисления, поэтому их любят студенты и профессионалы во всем мире. Благодаря искусственному интеллекту и большим языковым моделям (LLM) появилось множество новых инструментов, которые стали следующим поколением образовательных технологий. В 2023 году почти каждый пятый ученик, слышавший о ChatGPT, использовал его для помощи в учебе, и с тех пор это число, вероятно, выросло. Для студента, которому нужна помощь в написании эссе по истории и пр
Оглавление

Автор Вирадж Сингх

«Что такое вычисления?»

Когда Лекс Фридман в своем подкасте спросил об этом Стивена Вольфрама, генерального директора и основателя Wolfram Alpha, его ответ был прост: «Вычисления — это следование правилам. Вот и все.»

Системы символьных вычислений, такие как Wolfram Alpha, Maplesoft, Mathematica, делают именно это: они следуют заранее установленным правилам, определенным программным обеспечением. Они детерминистичны. Эти системы, основанные на правилах, предсказуемы и достаточно точны для решения арифметики, геометрии, алгебры и исчисления, поэтому их любят студенты и профессионалы во всем мире.

Благодаря искусственному интеллекту и большим языковым моделям (LLM) появилось множество новых инструментов, которые стали следующим поколением образовательных технологий. В 2023 году почти каждый пятый ученик, слышавший о ChatGPT, использовал его для помощи в учебе, и с тех пор это число, вероятно, выросло. Для студента, которому нужна помощь в написании эссе по истории и правильном форматировании цитат, инструмент обучения на основе LLM может оказаться полезным и сэкономить время.

Но студенту, решающему домашнее задание по алгебре, инструмент обучения на основе LLM может его подвести. Широко сообщалось, что эти системы плохо справляются с математикой.

-2

Почему эта новая технология настолько плоха в простых вычислениях, в которых преуспели инструменты, созданные десятилетия назад? И какое место он займет в новом поколении математических инструментов, которые определяют, как будущие поколения будут изучать и понимать этот предмет?

Как сегодня работают программы LLM и почему у них проблемы с математикой?

Чтобы понять, почему LLM испытывает трудности, нам нужно сначала понять, как LLM работают над обработкой и прогнозированием естественного языка. LLM — это «стохастические попугаи», термин, придуманный исследователем Эмили Бендер, чтобы описать, что, хотя LLM могут генерировать язык, который звучит убедительно для человека, они не понимают значения языка, который они «повторяют». И в отличие от систем символьных вычислений, LLM недетерминированы, а это означает, что для одних и тех же входных данных модель не обязательно будет каждый раз давать один и тот же результат.

Даже несмотря на эти ограничения, LLM доказали свою способность писать, учитывая их способность эффективно предсказывать следующее слово в последовательности. Например, если вам нужно было заполнить пробел в предложении «Отбивающий отбил мяч за пределами ____», вы с высокой вероятностью угадали бы «поля». Вы обучаетесь на основе своего живого лингвистического опыта, а LLM обучаются всему письму в открытом Интернете.

Рассмотрение математики как языка иногда может дать точные результаты. Но студенты LLM на самом деле фундаментально не понимают математические концепции, лежащие в основе расчетов. Если бы я спросил LLM: «Чему равно 1+1», велика вероятность, что он угадает правильный ответ — не потому, что он действительно понимает сложение, а просто потому, что он, вероятно, уже видел уравнение раньше и может угадать правильный ответ. Менее традиционные, но все же базовые вопросы вычислений могут дать разные результаты.

Другая причина, по которой у LLM возникают проблемы с математикой, заключается в том, что их обычно обучают в открытом Интернете, где математическому контенту не хватает четко обозначенных и структурированных математических данных. Математические выражения требуют специальных обозначений и символов, но эти данные часто не структурированы таким образом, чтобы их можно было легко усвоить для обучения LLM. Следовательно, они часто не понимают значения математических символов.

При тестировании LLM на математические способности обычно используются два теста. Первый, MATH, является эталоном математических задач на уровне средней школы. Второй, GSM8K, представляет собой тест, состоящий из математических словесных задач на уровне начальной школы. Хотя эти тесты, конечно, не учитывают всю математическую вселенную, они полезны при измерении эффективности LLM на сегодняшний день. Согласно некоторым из последних тестов, выпущенных OpenAI, ChatGPT-4o является лидером теста MATH с точностью 76,6%, за ним следует Claude 3.5 Sonnet.

Предостережение: хотя существуют универсальные тесты LLM, такие как MATH, не существует стороннего органа по стандартизации, который бы проводил фактическое тестирование. На данный момент мы полагаемся на то, что сами создатели LLM проверят модель на соответствие эталонным критериям, как в случае с OpenAI, опубликовавшим многие из приведенных ниже рисунков. Тем не менее, они полезны для определения направленных различий между LLM, даже если фактическая контрольная мера «% точности» для одного и того же LLM может выглядеть по-разному в разных исследованиях академического сообщества.

Источник: MATH Benchmark, опубликованный OpenAI после выпуска ChatGPT-4o в мае 2024 года; Claude 3.5 Sonnet Benchmark выпущен в июне 2024 г.
Источник: MATH Benchmark, опубликованный OpenAI после выпуска ChatGPT-4o в мае 2024 года; Claude 3.5 Sonnet Benchmark выпущен в июне 2024 г.

Каковы стратегии улучшения ИИ в математике?

Отрасль пытается улучшить математические показатели LLM несколькими новыми способами.

Первое решение – это усиление процесса, а не результата. Вместо того, чтобы сосредоточиться на правильном ответе, этот модельный подход к обучению фокусируется на шагах, необходимых для его достижения. Это различие известно как «надзор за процессом» и «надзор за результатом», как это определено OpenAI.

-4

Первый предполагает предоставление обратной связи по каждому конкретному шагу в заданной цепочке мыслей. В тесте MATH модели с контролем процесса превзошли модели с контролем результатов.

Второе решение для улучшения математических результатов — интеграция LLM с символическими вычислительными системами, чтобы пользователи могли получить лучшее из обоих миров. Они могут получить доступ к возможностям LLM по пониманию языка, которые могут разбирать текстовые задачи и предоставлять пошаговые объяснения, а также к преимуществам основанной на правилах структуры систем символьных вычислений, которые обеспечивают более высокую точность.

Функционально это может работать как плагин ChatGPT + Wolfram или фактически вставлять эти детерминированные «правила» непосредственно в процесс рассуждения модели.

-5

Совместное исследование Университета Цинхуа и Массачусетского технологического института показало, что обучение агентов рассуждения, интегрированных в инструменты (ToRA), дает более высокую точность (51%) в тесте MATH по сравнению с ChatGPT-4 (43%). Несмотря на преимущества от интеграции инструментов, исследователи отметили, что LLM по-прежнему испытывают трудности с такими аспектами математики, как геометрия, учитывая отсутствие у них пространственного понимания и продвинутой алгебры.

Еще один подход к улучшению математических показателей LLM — это возможность собирать дифференцированные данные, которые можно использовать для обучения. Это может выглядеть как введение объяснения математической задачи в стиле учебника в LLM, чтобы он мог изучить шаги, необходимые для поиска решения.

Получение данных о клиентах или пользователях также является преимуществом. Инструменты для изучения математики под управлением ИИ, такие как Photomath, собирают такие данные от учащихся, которые фотографируют свои математические задачи и загружают их, чтобы ИИ мог проанализировать и предложить решение. Увеличение объема проблем, с которыми сталкивается ИИ, а также подтверждение пользователем того, было ли объяснение шагов полезным, могут еще больше повысить точность модели и способность объяснять шаги. (Этот подход известен как обучение с подкреплением на основе обратной связи с человеком или RLHF.)

Одной из компаний, использующих многосторонний подход, является Thinkverse (портфельная компания Reach) с уровнем LLM, который поддерживает пошаговое объяснение проблем, уровнем символических вычислений, который гарантирует точность решений, и оптическим распознаванием символов (OCR). ) слой, который извлекает текст математических уравнений из изображений и отсканированных документов и позволяет принимать многомодельный контент.

Доступные на рынке сегодня математические инструменты на базе искусственного интеллекта

Сегодня на рынке существует множество инструментов для изучения математики на основе искусственного интеллекта: Thinkverse, AI Math, Studeo, Photomath, Mathpix (еще одна портфельная компания Reach Capital), Gauthmath, Answer.ai, Thetawise, Mathful и Sizzle — это лишь несколько примеров. Эти специализированные инструменты, которые часто создаются на основе последней версии LLM ChatGPT или Claude, призваны отличаться удобным для студентов интерфейсом и опытом. Например, Thetawise позволяет принимать мультимодальный контент (например, студенты могут загружать необработанные рукописные заметки или фотографии или говорить устно). Цены варьируются от бесплатного до более 20 долларов в месяц.

Для любого в этом пространстве, стремящегося построить устойчивый бизнес за счет взимания платы со студентов, качество опыта должно быть значительно лучше, чем планка, установленная бесплатной версией ChatGPT. При установлении цены на эти продукты компаниям следует также учитывать, что значительное количество потенциальных первых пользователей, возможно, уже платят за премиальную версию ChatGPT (20 долларов США в месяц), которая включает доступ к одному из лучших программ LLM по математике (ChatGPT-4o) и Плагин Wolfram + ChatGPT (доступен бесплатно).

Одним из новых лидеров в области LLM в области математики является Mathpresso, у которого ежемесячно насчитывается 10 миллионов активных пользователей в Южной Корее, Японии, Таиланде и Вьетнаме. Mathpresso создала MathGPT, собственную программу LLM, специализирующуюся на математике, которая лежит в основе многих ее приложений. Этот LLM, разработанный совместно Mathpresso, телекоммуникационным гигантом KT и стартапом в области искусственного интеллекта UPstage, утверждает, что использует генерируемые клиентами, собственные и синтетически созданные данные, чтобы превзойти другие на рынке, включая Microsoft ToRA и GPT-4 в тестах MATH и GSM8K. Хотя MathGPT недавно был превзойден GPT-4o и Claude 3.5 Sonnet, то, что стартап смог конкурировать с действующими компаниями с помощью LLM, созданного с нуля, по-прежнему является впечатляющим достижением.

Помогайте!

Нам предстоит еще многое сделать, прежде чем математические инструменты на основе LLM станут достаточно точными и заслуживающими доверия. В этом может помочь использование систем символьных вычислений. Тем не менее, инструменты обучения искусственному интеллекту на основе LLM обещают стать мощным средством обучения. Вместо того, чтобы просто обрабатывать цифры, они могут помочь решить запутанные математические задачи (как на естественном языке, так и в естественном мире), а также помочь в общении, необходимом для создания подмостков и объяснения шагов на пути к решению. Это ускорит обучение по всем направлениям.

Источник