Как сегодня обучают LLM

31 декабря 202531 дек 2025

~1 мин

1. Pre-training. Модель прогоняют через огромный, но отфильтрованный корпус (Common Crawl, книги, научные статьи, код). Пример: FineWeb — 51 ТБ веб-текста (~15 трн токенов). 2. Supervised Fine-Tuning (SFT). На компактном наборе высококачественных пар «инструкция → ответ» модель учат точно выполнять запросы. 3. Alignment. Люди ранжируют сгенерированные ответы; их предпочтения формируют reward-модель, а LLM донастраивают c помощью RLHF. Всё чаще вместо RLHF используют более новые схемы (DPO, PPO), но цель та же — подстроить поведение под человеческие ожидания. LLM 2/2 @kod1nd

2. Supervised Fine-Tuning (SFT). На компактном наборе высококачественных пар «инструкция → ответ» модель учат точно выполнять запросы.

3. Alignment. Люди ранжируют сгенерированные ответы; их предпочтения формируют reward-модель, а LLM донастраивают c помощью RLHF. Всё чаще вместо RLHF используют более новые схемы (DPO, PPO), но цель та же — подстроить поведение под человеческие ожидания.

LLM 2/2

@kod1nd