Что такое model-based RL и зачем агенту нужна модель мира? (рассказывает Олег Свидченко)
Простыми словами, что такое RLHF!
RLHF (Reinforcement Learning from Human Feedback) — это метод машинного обучения, при котором модель обучается с использованием обратной связи от человека, чтобы улучшить своё поведение или выходные данные. Он сочетает обучение с подкреплением (Reinforcement Learning, RL) с оценками людей, которые помогают алгоритму понять, какие действия или решения более предпочтительны. Как это работает? 1. Предварительное обучение: Модель сначала обучается на большом объёме данных (например, текстах для языковых моделей)...
Расстройства личности: часть 1.
Словосочетание «Расстройство Личности» (РЛ) вызывает, как правило, негативные ассоциации. В советской психиатрии таких людей называли психопатами (что звучит как оскорбление). Психоаналитики именуют их «пограничниками»: ну вы поняли... это те... которые на грани психоза... ⠀ Джудит Бек (признанный авторитет в области когнитивной терапии) в этой связи вообще не рекомендует своим ученикам использовать словосочетание РЛ в общении с клиентами. Но такое замалчивание никак не улучшает дело. ⠀ Я решил написать эту статью, чтобы развеять вредные мифы...