30 подписчиков
В ответ на пост
вот еще одна история про маленькие модели: кто-то придумал, как дообучать маленькую модельку путем того, что задавать вопросы к документу, искать ответы в корпусе (с помощью внешнего инструмента) и оценивать свои ответы, и все это в RL-цикле
автор пишет, что за час обучения на одной карте получил прирост качества Llama-8B c 23% до 53% на тестовом наборе вопросов
причаститься можно тут
Около минуты
12 марта 2025