LIMA: Less Is More for Alignment. Или почему качество данных важнее количества при дообучении LLM.
Обучение LLM традиционно проходит в два этапа: Каждый из этапов требует большого датасета с обучающими даными. Однако авторы статьи LIMA: Less Is More for Alignment наглядно доказали, что для fine-tuning этапа требуется всего 1000 высококачественных, тщательно подобранных пар (промпт + ответ). И этого набора хватает для неожиданно достаточно для достижения производительности, сравнимой с GPT-4, Bard и DaVinci003 LLM приобретает знания в процессе предобучения (pretraining), а стиль и формат ответов модель изучает в процессе дообучения (fine-tuning)...