вышла довольно интересная статья про self-supervised RL, тут суть сводится к тому, чтобы генерировать инструкцию, которая улучшает ответ на определенный ответ и обучении на этой инструкции (первая картинка) на второй картинке показано, как проходит процесс дообучения; а вот на третьей - результат этой петли обратной связи, качество на более ранних задачах постепенно ухудшается; я ранее высказывал сомнение по этому поводу (для другой работы на схожую тему), теперь оно подтвердилось @valuableai
вышла довольно интересная статья про self-supervised RL, тут суть сводится к тому, чтобы генерировать инструкцию, которая улучшает ответ на
25 июля 202525 июл 2025
1
~1 мин