1081 подписчик
Начало конца людей? - новый GPT сам себя улучшает
Немного базы🤌
Есть такой метод обучения нейросетей как RLHF. (Reinforcement Learning from Human Feedback - Обучение с подкреплением на основе отзывов)
🧐Если просто - это процесс оценки качества ответа нейросети человеком и ее дообучения на основании оценок.
Но так выросли нейросети, что становится все труднее объективно оценивать, искать ошибки. Это вообще и проблема метода, что берется некое средне человеческое хорошо/плохо.
Так вот есть нейросеть CriticGPT, которая помогает акцентировать внимание на ошибках и проблемах в ходе оценок. И она умнеет!🔼
И пока что это шикарный помощник человеку (тренеру модели), который может снизить галюны.
❗️И ребята в самом исследовании пишут, что теперь такие нейрокритики и сами модели будут только развиваться. А человеческий интеллект нет! (Вот обидно было)
И главная задача теперь дать правильный вектор такого развития, "чтобы поощряли они правильное поведение, даже когда станут умнее нас!" (Не если!)
Это все в копилочку AGI монетка 🪙
Обсудим что с этим делать в Понедельник в 19:00 на онлайн встрече прямо тут!
Ролик завтра, задержки по монтажу, его пока нейросети не делают...
1 минута
28 июня 2024