Обзор статьи Self-Alignment With Instruction Backtranslation.
Буквально недавно мы разбирали метод синтеза instruct-данных для дообучения LLM, основанный на Bootstrapping LongCoT. Сегодня разберём ещё один способ получить качественные обучающие пары: Self-Alignment with Instruction Backtranslation. 1) Инициализация.
Берётся датасет, состоящий из 3200 пар инструкция-ответ. На данном небольшом датасете дообучается модель M0. 2) Self-Augmentation.
Берётся большой корпус текстов из интернета. Тексты делятся на самостоятельные сегменты (self-contained segments), затем сегменты дедублицируются и фильтруются по длине и качеству. Затем для каждого сегмента модель M0 формирует пару инструкция-ответ. Это позволило получить датасет A, содержащий 500к пар. 3) Self-Curation.
Модель M0 получает пару инструкция-ответ и оценивает её по 5-ти бальной шкале на основе качества соответствия и полезности. Далее формируется датасет A1, который состоит только из пар, которые получили оценку 5. При дообучении