Найти в Дзене
The Prompter

Зачем Яндекс нанимает гуманитариев как AI-тренеров?

«Яндекс» начал нанимать людей гуманитарных профессий для обучения своей LLM YaLM 2.0 — российского аналога ChatGPT. Короткий ответ зачем и почему кроется в аббревиатуре (RLHF) Reinforcement Learning from Human Feedback. Обучение с подкреплением на основе обратной связи с человеком расскажу что это, и стоит ли вкатываться в AI-тренера. Искусственный интеллект (ИИ) может выполнять различные задачи, связанные с языком, такие как ведение диалога, или составление краткого содержания. Но как ИИ узнает, как правильно говорить или писать? Одним из способов обучения ИИ является обучение с подкреплением (RL) . Это метод, при котором ИИ получает награду или штраф за свои действия в зависимости от того, насколько они хороши или плохи для достижения цели. Например, если ИИ хочет выиграть в шахматы, он получает награду за каждый ход, который приближает его к победе, и штраф за каждый ход, который отдаляет его от нее. Таким образом, ИИ учится выбирать лучшие ходы. Но есть проблема. Как определить, на

«Яндекс» начал нанимать людей гуманитарных профессий для обучения своей LLM YaLM 2.0 — российского аналога ChatGPT.

Короткий ответ зачем и почему кроется в аббревиатуре (RLHF) Reinforcement Learning from Human Feedback. Обучение с подкреплением на основе обратной связи с человеком расскажу что это, и стоит ли вкатываться в AI-тренера.

Искусственный интеллект (ИИ) может выполнять различные задачи, связанные с языком, такие как ведение диалога, или составление краткого содержания. Но как ИИ узнает, как правильно говорить или писать?

Одним из способов обучения ИИ является обучение с подкреплением (RL) . Это метод, при котором ИИ получает награду или штраф за свои действия в зависимости от того, насколько они хороши или плохи для достижения цели. Например, если ИИ хочет выиграть в шахматы, он получает награду за каждый ход, который приближает его к победе, и штраф за каждый ход, который отдаляет его от нее. Таким образом, ИИ учится выбирать лучшие ходы.

Но есть проблема. Как определить, насколько хороши или плохи действия ИИ в задачах, связанных с языком? Как измерить качество диалога? Как учесть разные цели, ситуации и предпочтения людей? Насколько языковая модель следует за инструкцией?

Для этого нужна функция награды — правило, которое говорит ИИ, сколько очков он получает за каждое действие. Но придумать такую функцию очень сложно и дорого.

Сложная и дорогая функция от OpenAI
Сложная и дорогая функция от OpenAI

Поэтому применяется другой способ — обучение с подкреплением от человеческой обратной связи (RLHF). Это метод, при котором ИИ не получает награду или наказание за свои действия напрямую, а спрашивает людей о своем мнении. Люди могут сказать ИИ, какие из его действий им нравятся больше или меньше. С помощью подобного выравнивания (Aligning) модель показывает значительно лучшие результаты.

OpenAI полностью оправдывает свое название Отрытый ИИ и предоставляет крайне мало информации о способах точной настройки GPT. Но совершено точно известно, что RLHF использовалось для превращения GPT-3 в InstructGPT.

И известно, что работа AI-тренера заключалась в ранжировании ответов языковой модели в соответствии критериями на 5 классов. Примеры ниже

-2

и вот так

-3

Является ли работа AI-тренером самым простым способом вкатиться в ИТ?

Не обязательно, но я уверен в том, что люди первыми освоившие работу с генеративным ИИ получат читерский буст в продуктивности и творчестве. И вовсе не ИИ лишит вас работы, а человек умеющий им пользоваться эффективнее вас. Поэтому AI-тренер как и профессия Промт-инженера — это профессии будущего.

Помимо этого в группе AI тренеров должны быть представлены эксперты с разными областями знаний и опытом, связанными с темой или задачей, для которой обучается LLM модель. Ведь это позволит обеспечить, адекватную оценку модели, конструктивную обратную связь и лучшее выравнивание (aligning) модели под любой запрос.