«Яндекс» начал нанимать людей гуманитарных профессий для обучения своей LLM YaLM 2.0 — российского аналога ChatGPT. Короткий ответ зачем и почему кроется в аббревиатуре (RLHF) Reinforcement Learning from Human Feedback. Обучение с подкреплением на основе обратной связи с человеком расскажу что это, и стоит ли вкатываться в AI-тренера. Искусственный интеллект (ИИ) может выполнять различные задачи, связанные с языком, такие как ведение диалога, или составление краткого содержания. Но как ИИ узнает, как правильно говорить или писать? Одним из способов обучения ИИ является обучение с подкреплением (RL) . Это метод, при котором ИИ получает награду или штраф за свои действия в зависимости от того, насколько они хороши или плохи для достижения цели. Например, если ИИ хочет выиграть в шахматы, он получает награду за каждый ход, который приближает его к победе, и штраф за каждый ход, который отдаляет его от нее. Таким образом, ИИ учится выбирать лучшие ходы. Но есть проблема. Как определить, на