Исследователи разработали метод, называемый встроенными программами на естественном языке (NLEPs), который повышает производительность больших языковых моделей за счет создания программ на Python для решения сложных задач.
Этот метод не только повышает точность и эффективность, но и повышает прозрачность, поскольку пользователи могут напрямую видеть сгенерированный код и изменять его. NLEP позволяют большим моделям, таким как GPT-4, решать более широкий спектр задач с более высокой точностью и потенциально могут улучшить конфиденциальность данных и производительность небольших моделей без обширной переподготовки.
Улучшение возможностей рассуждений больших языковых моделей
Большие языковые модели, такие как те, что используются в ChatGPT, показали впечатляющую производительность при выполнении таких задач, как составление юридических заключений, анализ настроений в отзывах клиентов или перевод документов на разные языки.
Эти модели машинного обучения обычно используют только естественный язык для обработки информации и ответов на запросы, что может затруднить им выполнение задач, требующих числового или символического мышления.
Например, большая языковая модель может быть способна запоминать и перечислять список недавних президентов США и их дни рождения, но та же модель может дать сбой, если задать вопрос “Какие президенты США, избранные после 1950 года, родились в среду?” (Ответ - Джимми Картер.)
Расширение возможностей моделей с помощью NLEPs
Исследователи из Массачусетского технологического института и других стран предложили новую технику, которая позволяет большим языковым моделям решать задачи на естественном языке, математике, анализе данных и символическом мышлении путем создания программ.
Их подход, называемый встроенными программами на естественном языке (NLEP), включает в себя запрос языковой модели на создание и выполнение программы на Python для решения запроса пользователя, а затем вывод решения на естественном языке.
Повышенная точность и прозрачность
Они обнаружили, что NLEP позволяют большим языковым моделям достигать более высокой точности в широком диапазоне задач рассуждения. Подход также поддается обобщению, что означает, что одно приглашение NLEP можно повторно использовать для нескольких задач.
NLEP также повышают прозрачность, поскольку пользователь может проверить программу, чтобы увидеть, как именно модель рассуждала о запросе, и исправить программу, если модель дала неправильный ответ.
“Мы хотим, чтобы ИИ выполнял сложные рассуждения прозрачным и заслуживающим доверия способом. Предстоит пройти еще долгий путь, но мы показали, что объединение возможностей программирования и естественного языка в больших языковых моделях - это очень хороший потенциальный первый шаг к будущему, в котором люди смогут полностью понимать и доверять тому, что происходит внутри их модели ИИ ”, - говорит 22-летний доктор философии Хонъинь Ло, постдок Массачусетского технологического института и соавтор статьи о NLEPs.
К Ло присоединились соавторы Тяньхуа Чжан, аспирант Китайского университета Гонконга; и Цзясинь Ге, студент Пекинского университета; Юн Ким, доцент кафедры электротехники и компьютерных наук Массачусетского технологического института и сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); старший автор Джеймс Гласс, старший научный сотрудник и руководитель группы систем разговорного языка в CSAIL; и другие. Исследование будет представлено на Ежегодной конференции Североамериканского отделения Ассоциации компьютерной лингвистики.
Разработка и операционный механизм NLEP
Многие популярные модели больших языков работают путем предсказания следующего слова или токена на основе некоторого ввода на естественном языке. Хотя модели, подобные GPT-4, могут использоваться для написания программ, они встраивают эти программы в естественный язык, что может привести к ошибкам в рассуждениях программы или результатах.
В NLEPs исследователи Массачусетского технологического института применили противоположный подход. Они предлагают модели сгенерировать пошаговую программу полностью в коде Python, а затем встроить в программу необходимый естественный язык.
NLEP - это шаблон для решения проблем, состоящий из четырех шагов. Сначала модель вызывает необходимые пакеты, или функции, которые ей понадобятся для решения задачи. Шаг второй включает импорт представлений знаний, необходимых для выполнения задачи, на естественном языке (например, списка дней рождения президентов США). На третьем шаге модель реализует функцию, которая вычисляет ответ. И на заключительном этапе модель выводит результат в виде строки на естественном языке с автоматической визуализацией данных, если это необходимо.
“Это как цифровой калькулятор, который всегда выдает вам правильный результат вычислений, пока программа верна”, - говорит Ло.
Пользователь может легко исследовать программу и исправлять любые ошибки в коде напрямую, вместо того чтобы повторно запускать всю модель для устранения неполадок.
Этот подход также обеспечивает большую эффективность, чем некоторые другие методы. Если у пользователя возникает много похожих вопросов, он может сгенерировать одну базовую программу, а затем заменить определенные переменные без необходимости многократного запуска модели.
Чтобы побудить модель сгенерировать NLEP, исследователи дают ей общую инструкцию по написанию программы на Python, предоставляют два примера NLEP (один с математикой, другой с естественным языком) и один тестовый вопрос.
“Обычно, когда люди делают такого рода кратковременные подсказки, им все равно приходится разрабатывать подсказки для каждой задачи. Мы обнаружили, что у нас может быть одно приглашение для многих задач, потому что это не приглашение, которое учит LLM решать одну проблему, а приглашение, которое учит LLM решать множество проблем путем написания программы ”, - говорит Ло.
“Использование языковых моделей в коде открывает множество возможностей для использования инструментов, проверки выходных данных, более структурированного понимания возможностей модели и способа мышления и многого другого”, - говорит Леонид Карлинский, главный научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson.
“Здесь нет волшебства”
NLEPs достигла более 90-процентной точности, предлагая GPT-4 решить ряд задач на символическое мышление, таких как отслеживание перемещаемых объектов или игра в 24 игры, а также задачи по выполнению инструкций и классификации текста. Исследователи обнаружили, что NLEP даже демонстрируют на 30 процентов большую точность, чем методы подсказок для конкретной задачи. Метод также продемонстрировал улучшения по сравнению с LLM с открытым исходным кодом.
Наряду с повышением точности больших языковых моделей, NLEP также может улучшить конфиденциальность данных. Поскольку программы NLEP запускаются локально, конфиденциальные пользовательские данные не нужно отправлять в такие компании, как OpenAI или Google, для обработки моделью.
Кроме того, NLEPs может позволить небольшим языковым моделям работать лучше без необходимости переобучения модели для выполнения определенной задачи, что может быть дорогостоящим процессом.
“Здесь нет волшебства. У нас нет более дорогой или навороченной языковой модели. Все, что мы делаем, это используем генерацию программ вместо генерации естественного языка, и мы можем сделать ее работу значительно лучше”, - говорит Ло.
Однако NLEP полагается на способность модели генерировать программы, поэтому этот метод не работает так хорошо для моделей меньшего размера, которые были обучены на ограниченных наборах данных. В будущем исследователи планируют изучить методы, которые могли бы заставить небольшие языковые модели генерировать более эффективные NLEP. Кроме того, они хотят исследовать влияние быстрых изменений на NLEP, чтобы повысить надежность процессов рассуждений модели.