Найти тему
10,2 тыс подписчиков

🔥 Learning From Mistakes Makes LLM Better Reasoner


LEMA fine-tunes LLMs on mistakecorrection data pairs generated by GPT-4.

Большие языковые модели недавно продемонстрировали замечательные способности к рассуждениям при решении математических задач. Для дальнейшего улучшения этих возможностей в данной работе предлагается метод обучения на ошибках (LeMa), аналогичный процессам обучения человека.

Если взять студента, который не смог решить математическую задачу, для достижения успеха, студент узнает, какую ошибку он допустил и как ее исправить. Имитируя этот процесс обучения, основанный на ошибках, LeMa производит тонкую настройку LLM на парах данных "ошибка-исправление", генерируемых GPT-4.

В частности, сначала собираются неточные пути рассуждений от различных ЛЛМ, а затем используется GPT-4 в качестве "корректора", чтобы (1) определить ошибочный шаг, (2) объяснить причину ошибки, (3) исправить ошибку и сформировать окончательный ответ.

LeMa стабильно улучшает производительность моделей по сравнению с тонкой настройкой и превосходит показатели SOTA, достигнутые другими моделями с открытым исходным кодом на различных сложных задачах.




🔥 Learning From Mistakes Makes LLM Better Reasoner  LEMA fine-tunes LLMs on mistakecorrection data pairs generated by GPT-4.
1 минута