1 подписчик

BOLT: Bootstrapping LongCoT. Или как научить LLM думать дольше

3 сентября 20253 сен 2025

1 мин

Многие LLM модели используют ShortCoT (короткие рассуждения) и плохо справляются со сложными задачами. Подход BOLT помогает научить модели длинным рассуждениям (LongCoT) и значительно улучшает качество ответов. Статья Для каждого запроса формируются 8 пар (ответ, рассуждения). Довольно интересная статья, постараюсь применить данный алгоритм на практике. Темка "дообучить LLM" или даже "обучить LLM с нуля" давно витает в воздухе, так что работаем дальше 😉Всем удачи! Если остались вопросы? Можете заглянуть ко мне в Telegram.

Оглавление

Рассмотрим основные шаги подхода.
1. Формирование датасета.
2. Генерация ответов и рассуждений.

Многие LLM модели используют ShortCoT (короткие рассуждения) и плохо справляются со сложными задачами. Подход BOLT помогает научить модели длинным рассуждениям (LongCoT) и значительно улучшает качество ответов.

Статья

Рассмотрим основные шаги подхода.

1. Формирование датасета.

Авторы вручную сформировали 10 примеров LongCoT: каждый пример — это тройка: запрос, рассуждения, ответ.
Затем были собраны высококачественные Instruct-датасеты:
SlimOrca
Self-Instruct
Из данных датасетов , были выбраны только запросы, из которых были отобраны наиболее качественные. Как и в работе LMSys Team было выбрано 7 ключевых критериев качества:

1) Конкретность: запрашивает ли подсказка конкретный результат?
2) Знание предметной области: затрагивает ли запрос одну или несколько конкретных областей?
3) Сложность: содержит ли запрос несколько уровней рассуждений, компонентов или переменных?
4) Решение проблем: предполагает ли запрос непосредственное участие ИИ в демонстрации навыков активного решения проблем?
5) Творческий подход: предполагает ли задание творческий подход к решению проблемы?
6) Техническая точность: требует ли запрос технической точности в ответе?
7) Применение в реальной жизни: имеет ли запрос отношение к реальным приложениям?
Для каждого из критерия LLM выставляла метку 1 или 0. В итоговый набор запросов отбирались только те, которые набрали минимум 5 баллов.

2. Генерация ответов и рассуждений.

Для каждого запроса формируются 8 пар (ответ, рассуждения).

3. Фильтрация.

Отсеиваются тройки с некорректным форматом (неверные теги и прочее),
Оцениваются только финальные ответы с помощью outcome-reward-модели ORM,
Отбираются топ-30% → формируется качественный SFT-датасет (~220k примеров).

4. Доработка модели: LongCoT Online Training.

Берём запрос,
Получаем n пар (ответ, рассуждения),
Оцениваем каждую пару с помощью ORM,
Дообучаем модель с помощью DPO: хорошие ответы становятся более вероятными, плохие — менее.

✅ Итог:

Модель учится использовать длинные рассуждения,
Существенное улучшение качества LLM.

Довольно интересная статья, постараюсь применить данный алгоритм на практике. Темка "дообучить LLM" или даже "обучить LLM с нуля" давно витает в воздухе, так что работаем дальше 😉Всем удачи!

Если остались вопросы? Можете заглянуть ко мне в Telegram.