Добавить в корзинуПозвонить
Найти в Дзене

вышла довольно интересная статья про self-supervised RL, тут суть сводится к тому, чтобы генерировать инструкцию, которая улучшает ответ на

вышла довольно интересная статья про self-supervised RL, тут суть сводится к тому, чтобы генерировать инструкцию, которая улучшает ответ на определенный ответ и обучении на этой инструкции (первая картинка) на второй картинке показано, как проходит процесс дообучения; а вот на третьей - результат этой петли обратной связи, качество на более ранних задачах постепенно ухудшается; я ранее высказывал сомнение по этому поводу (для другой работы на схожую тему), теперь оно подтвердилось @valuableai

вышла довольно интересная статья про self-supervised RL, тут суть сводится к тому, чтобы генерировать инструкцию, которая улучшает ответ на определенный ответ и обучении на этой инструкции (первая картинка)

на второй картинке показано, как проходит процесс дообучения; а вот на третьей - результат этой петли обратной связи, качество на более ранних задачах постепенно ухудшается; я ранее высказывал сомнение по этому поводу (для другой работы на схожую тему), теперь оно подтвердилось

@valuableai

-2
-3