Добавить в корзину Позвонить

Valuable AI / Валентин Малых

30 подписчиков

вышла статья с на мой взгляд сбивающим с толку названием "Reinforcement Pre-Training"; с толку оно сбивает потому, что они фактически

19 июня 202519 июн 2025

2

~1 мин

вышла статья с на мой взгляд сбивающим с толку названием "Reinforcement Pre-Training"; с толку оно сбивает потому, что они фактически работают с уже предобученной моделью и просто ее вот так хитро дообучают; хитрость заключается в том, что они стандартную задачу предсказания следующего токена решают с помощью размышлений (как показано на первой картинке); очевидно, что так (предсказывая цепочку рассуждений для каждого токена) было бы очень долго и неэффективно тренировать, поэтому они маленькой моделькой сначала выбирают токены, на которых большая перплексия и дообучаются только на них; за счет этого трюка они на два процента смогли поднять качество на бенчмарках (вторая картинка)

вышла статья с на мой взгляд сбивающим с толку названием "Reinforcement Pre-Training"; с толку оно сбивает потому, что они фактически работают с уже предобученной моделью и просто ее вот так хитро дообучают; хитрость заключается в том, что они стандартную задачу предсказания следующего токена решают с помощью размышлений (как показано на первой картинке); очевидно, что так (предсказывая цепочку рассуждений для каждого токена) было бы очень долго и неэффективно тренировать, поэтому они маленькой моделькой сначала выбирают токены, на которых большая перплексия и дообучаются только на них; за счет этого трюка они на два процента смогли поднять качество на бенчмарках (вторая картинка)

...Читать далее

вышла статья с на мой взгляд сбивающим с толку названием "Reinforcement Pre-Training"; с толку оно сбивает потому, что они фактически работают с уже предобученной моделью и просто ее вот так хитро дообучают; хитрость заключается в том, что они стандартную задачу предсказания следующего токена решают с помощью размышлений (как показано на первой картинке); очевидно, что так (предсказывая цепочку рассуждений для каждого токена) было бы очень долго и неэффективно тренировать, поэтому они маленькой моделькой сначала выбирают токены, на которых большая перплексия и дообучаются только на них; за счет этого трюка они на два процента смогли поднять качество на бенчмарках (вторая картинка)