Обучение LLM традиционно проходит в два этапа: Каждый из этапов требует большого датасета с обучающими даными. Однако авторы статьи LIMA: Less Is More for Alignment наглядно доказали, что для fine-tuning этапа требуется всего 1000 высококачественных, тщательно подобранных пар (промпт + ответ). И этого набора хватает для неожиданно достаточно для достижения производительности, сравнимой с GPT-4, Bard и DaVinci003 LLM приобретает знания в процессе предобучения (pretraining), а стиль и формат ответов модель изучает в процессе дообучения (fine-tuning). Чтобы проверить эту идею, исследователи собрали всего 1000 тщательно отобранных примеров из разных источников: Основным критерием отбора является качество и разнообразие вопросов. Это подразумевает разнообразие тематик и уровней сложности вопросов.
На основе этих данных исследователи дообучили LLaMa 65B. В 74% вопросов модель давала лучшие или сравнимые с Alpaca 65B ответы. В основе Alpaca также лежит LLaMa, но дообучение происходит на 52k п