30 подписчиков

вышла довольно интересная статья про self-supervised RL, тут суть сводится к тому, чтобы генерировать инструкцию, которая улучшает ответ на

25 июля 202525 июл 2025

~1 мин

вышла довольно интересная статья про self-supervised RL, тут суть сводится к тому, чтобы генерировать инструкцию, которая улучшает ответ на определенный ответ и обучении на этой инструкции (первая картинка) на второй картинке показано, как проходит процесс дообучения; а вот на третьей - результат этой петли обратной связи, качество на более ранних задачах постепенно ухудшается; я ранее высказывал сомнение по этому поводу (для другой работы на схожую тему), теперь оно подтвердилось @valuableai

на второй картинке показано, как проходит процесс дообучения; а вот на третьей - результат этой петли обратной связи, качество на более ранних задачах постепенно ухудшается; я ранее высказывал сомнение по этому поводу (для другой работы на схожую тему), теперь оно подтвердилось

@valuableai