Найти тему
1081 подписчик

Начало конца людей? - новый GPT сам себя улучшает


Немного базы🤌

Есть такой метод обучения нейросетей как RLHF. (Reinforcement Learning from Human Feedback - Обучение с подкреплением на основе отзывов)

🧐Если просто - это процесс оценки качества ответа нейросети человеком и ее дообучения на основании оценок.

Но так выросли нейросети, что становится все труднее объективно оценивать, искать ошибки. Это вообще и проблема метода, что берется некое средне человеческое хорошо/плохо.

Так вот есть нейросеть CriticGPT, которая помогает акцентировать внимание на ошибках и проблемах в ходе оценок. И она умнеет!🔼

И пока что это шикарный помощник человеку (тренеру модели), который может снизить галюны.

❗️И ребята в самом исследовании пишут, что теперь такие нейрокритики и сами модели будут только развиваться. А человеческий интеллект нет! (Вот обидно было)

И главная задача теперь дать правильный вектор такого развития, "чтобы поощряли они правильное поведение, даже когда станут умнее нас!" (Не если!)


Это все в копилочку AGI монетка 🪙

Обсудим что с этим делать в Понедельник в 19:00 на онлайн встрече прямо тут!

Ролик завтра, задержки по монтажу, его пока нейросети не делают...

Начало конца людей? - новый GPT сам себя улучшает  Немного базы🤌  Есть такой метод обучения нейросетей как RLHF.
1 минута