79 подписчиков

Как ChatGPT научился "понимать" человека: разбираем на пальцах

30 июля 202530 июл 2025

22 мин

ChatGPT произвел фурор тем, насколько человечно и осмысленно он общается. Многие пользователи удивляются: как машине удалось так хорошо научиться разговаривать, шутить, помогать с кодом и избегать грубостей? Ведь ранее чат-боты часто отвечали невпопад или звучали "роботизированно". В этой статье мы разберем, что стоит за человечностью ChatGPT и подобных ИИ. Поговорим о том, как современные нейросети обучают на основе обратной связи от людей — подходе Reinforcement Learning from Human Feedback (RLHF). Не пугайтесь этих слов: начнем с нуля, простым языком, без сложных терминов. Вы узнаете, как ИИ обучают сначала на горах данных, а затем донастраивают с помощью людей, чтобы ответы были полезными, правдивыми и безопасными. Но прежде чем углубляться в особый алгоритм обучения с подкреплением от человека, давайте кратко поймем, что такое современные нейросети и как они учатся. Ранние подходы к ИИ часто базировались на жестких правилах, прописанных программистами: например, алгоритмы с наборо

Оглавление

Коротко об искусственном интеллекте и нейросетях
Виды нейросетей: CNN, RNN, трансформеры
Что такое обучение с подкреплением (RL) простыми словами

ChatGPT произвел фурор тем, насколько человечно и осмысленно он общается.

Многие пользователи удивляются: как машине удалось так хорошо научиться разговаривать, шутить, помогать с кодом и избегать грубостей? Ведь ранее чат-боты часто отвечали невпопад или звучали "роботизированно". В этой статье мы разберем, что стоит за человечностью ChatGPT и подобных ИИ. Поговорим о том, как современные нейросети обучают на основе обратной связи от людей — подходе Reinforcement Learning from Human Feedback (RLHF). Не пугайтесь этих слов: начнем с нуля, простым языком, без сложных терминов. Вы узнаете, как ИИ обучают сначала на горах данных, а затем донастраивают с помощью людей, чтобы ответы были полезными, правдивыми и безопасными.

Но прежде чем углубляться в особый алгоритм обучения с подкреплением от человека, давайте кратко поймем, что такое современные нейросети и как они учатся.

Коротко об искусственном интеллекте и нейросетях

Искусственный интеллект (ИИ) - это общее название технологий, благодаря которым программы могут выполнять задачи, требующие человеческой смекалки: понимать речь, распознавать картинки, принимать решения.

Ранние подходы к ИИ часто базировались на жестких правилах, прописанных программистами: например, алгоритмы с набором "если случится A, то сделать B". Такой подход работал для простых задач, но оказался слаб перед сложностью живого языка или разнообразием ситуаций.

Машинное обучение изменило ситуацию: теперь программисты не расписывают все правила вручную, а дают алгоритму данные с примерами, на которых он сам настраивает свои параметры. Проще говоря, машину учат так же, как ребенка - на примерах и ошибках. Алгоритм перебирает возможные решения и получает обратную связь, правильно он сделал или нет, корректируя свои внутренние параметры, чтобы в следующий раз дать более верный ответ. Со временем такой подход позволяет модели выявить скрытые закономерности в данных, которые человек не смог бы явно прописать набором правил.
Нейронные сети - особый вид алгоритмов машинного обучения, вдохновленный работой мозга. Они состоят из множества простых взаимосвязанных элементов - искусственных нейронов, образующих слои. Каждый "нейрон" получает на вход числа, выполняет простое действие (умножает на "вес" и суммирует), и передает результат дальше. Казалось бы, ничего необычного, но если таких нейронов десятки миллиардов и они хитро соединены слоями, вся сеть способна учиться невероятно сложным вещам. Нейросеть постепенно подбирает оптимальные "веса связей" между нейронами, чтобы на входной сигнал выдавать желаемый выход. Этот процесс и есть обучение: сеть показывают примеры и слегка подкручивают миллиарды "гаечек" (весов) внутри, чтобы ее ответы все лучше совпадали с правильными примерами.

Чтобы лучше представить: современные большие модели наподобие GPT-3 содержат сотни миллиардов настроечных параметров-весов. Количество связей в них сопоставимо с числом синапсов в мозгу некоторых животных.

Например, GPT-3 имеет около 175 миллиардов параметров - по сути, это как 175 миллиардов чисел, которые нейросеть подбирает в процессе обучения. Конечно, мощности компьютеров позволили добиться таких масштабов совсем недавно - еще десять лет назад подобное казалось фантастикой.

Виды нейросетей: CNN, RNN, трансформеры

Со временем появились разные типы нейронных сетей, заточенные под разные задачи. Возможно, вы встречали аббревиатуры вроде CNN или RNN:

CNN (Convolutional Neural Network), сверточная нейронная сеть - хорошо справляется с изображениями. Ее слои действуют как фильтры, выделяя на картинке простые элементы (например, края), комбинируя их в более сложные (узоры, формы) и в итоге распознавая, что изображено (например, кошку или машину). CNN революционизировали компьютерное зрение - от распознавания лиц до диагностики по снимкам.
RNN (Recurrent Neural Network), или рекуррентная нейронная сеть - приспособлена для работы с последовательностями (речи, текста, временных рядов). Она читает данные шаг за шагом (например, текст слово за словом), запоминая контекст с предыдущих шагов. Можно представить ее как человека, который читает предложение и помнит предыдущие слова, чтобы понять смысл следующего. RNN впервые позволили добиться хороших результатов в переводе текста, распознавании речи и других задачах, где порядок данных важен. Однако, у классических RNN есть ограничения: им сложно запоминать очень длинные последовательности - память со временем забывает начало текста. Кроме того, обучение RNN трудно распараллелить (нельзя обрабатывать слова вне порядка), что замедляет обучение на больших объемах данных.
Для преодоления этих ограничений разработали новую архитектуру - Transformer (трансформер). Трансформеры умеют эффективно работать с длинными текстами, потому что используют механизм "внимания": сеть сама решает, каким частям текста уделить больше внимания при обработке. Это позволило учитывать слова даже из далекого контекста (начало длинного абзаца) при генерации следующего слова. Важнее то, что трансформеры хорошо масштабируются: их можно обучать на огромных массивах данных, задействуя параллельно тысячи видеокарт. Именно трансформеры лежат в основе самых продвинутых моделей работы с языком.

Большие языковые модели (LLM) вроде GPT-3 и GPT-4 - это нейросети архитектуры "трансформер", обученные на колоссальном объеме текстов. Их задача при обучении, по сути, простая: угадывать следующее слово в тексте. Но благодаря гигантскому размеру и миллиардам примеров из интернета, модель выучивает грамматику, факты, стиль, логику - она начинает "понимать" язык в широком смысле.

Например, модель видела тысячи книг и статей и статистически знает, что за фразой "В небе ярко светило" с большой вероятностью продолжение "солнце" (а не "огурец"). Путем предсказания слов такая модель учится сочинять осмысленные тексты на любую тему - от стихов до кода.

Однако, если просто обучить нейросеть на всем, что пишут люди в интернете, получится неуправляемый интеллект. Такая модель будет генерировать тексты как есть в данных: вместе с полезной информацией она может выдать грубость, неправду или бессмыслицу - ведь в интернете полно токсичности и ошибок. Да, модель вроде GPT-3 умела связно продолжать текст, но она не знала, что конкретно нужно пользователю и какие ответы можно считать хорошими.

Например, базовая GPT-3 могла продолжить запрос о медицинской проблеме каким-нибудь псевдонаучным советом, если в обучающих данных встречался подобный текст. Она просто статистически продолжает текст, не обладая встроенным понятием истины, уместности или этики.

Чтобы из просто мощной языковой модели получился полезный ассистент, способный отвечать на вопросы честно, вежливо и по делу, одного "сытого" обучением на текстах интернета ИИ недостаточно. Нужна дополнительная тренировка с учетом человеческих ценностей и требований. Здесь на сцену выходит обучение с подкреплением от обратной связи человека (RLHF). Но сначала разберемся, что вообще значит "обучение с подкреплением", и при чем тут люди (мы).

Что такое обучение с подкреплением (RL) простыми словами

В классическом обучении с подкреплением (Reinforcement Learning, RL) алгоритм учится на основе наказаний и наград - примерно как дрессировка животного или обучение ребенка через поощрение. Представьте, что у нас есть умный агент (например, виртуальный персонаж в игре). Каждый раз, когда он совершает действие, среда выдает ему награду (плюс баллы) или штраф (минус баллы), в зависимости от того, приближает ли действие к цели. Со временем агент старается максимизировать суммарную награду, находя оптимальную стратегию.

Классический пример - обучение программы играть в шахматы: программа перебирает разные ходы, выигрыши дают ей положительный сигнал, поражения - отрицательный, и так она постепенно учится ходить все лучше, стремясь к максимальному счету (выигрышу).

Однако, в случае диалогового ИИ вроде ChatGPT нет очевидной числовой награды. Как математически выразить, хороший получился ответ или плохой? У нас нет простого счетчика "за каждое правильное слово +1 очко". Хороший ответ - понятие субъективное. Он зависит от контекста и ожиданий человека. Вот тут и нужен человек как источник оценки. Обучение с подкреплением от обратной связи человека (RLHF) - это метод, где роль "судьи" или "критерии награды" выполняют люди.

То есть, вместо заранее заданной формулы награды, мы показываем модели: "Вот, смотри, люди считают, что такой ответ - отличный (дай ему высокую оценку), а вот такой - плохой (низкая оценка)". Модель воспринимает человеческую оценку как сигнал "награды" и подстраивает свои ответы, чтобы получать больше таких наград. Проще говоря, люди учат ИИ своим предпочтениям, показывая на примерах, какие ответы им нравятся.

RLHF сочетает две идеи:

1. Воспитание через опыт и ошибку (reinforcement learning) - модель генерирует вариант ответа, получает "позитивное закрепление" или "легкий подзатыльник" (в виде числового сигнала), и старается в следующий раз ответить лучше.

2. Критерий оценки от человека (human feedback) - источник "позитивных закреплений" это не некая формула, а реальные люди, которые говорят, что хорошо, а что плохо.

Таким образом, мы направляем мощь нейросети в нужное русло. Базовая модель знает язык и факты, но бессознательно. RLHF учит ее быть полезной, честной и безвредной - так, как этого хотят пользователи.

Сбор данных: чему люди учат ИИ?

Конечно, чтобы обучить модель на основе человеческих предпочтений, сперва надо собрать много данных от людей. И вот тут становится ясно, что создание таких ИИ - это не только про алгоритмы, но и про огромный объем человеческого труда.

Есть известная фраза среди программистов: "качество ИИ определяется качеством данных, на которых он обучен". Если в данные попадает мусор, то и ответы будут мусорными (garbage in, garbage out). Поэтому разработчики ChatGPT уделили большое внимание сбору и разметке данных людьми.

Вы могли слышать новости, что компания OpenAI привлекала внештатных сотрудников по всему миру для ручной разметки данных.

Например, стала публично известна история, как в Кении команда людей за оплату около $2 в час просматривала тысячи текстов, содержащих оскорбления, токсичную лексику, сцены насилия и т.п. Они помечали в этих текстах степень токсичности, категоризировали нежелательный контент. Эти данные использовались затем, чтобы научить модель фильтровать вредоносный контент. Проще говоря, прежде чем ChatGPT вышел в публичный доступ, его обучили распознавать и избегать токсичных высказываний - как раз благодаря труду тех самых кенийских модераторов, которые вручную отметили: "вот это - ненависть, это - жестокость, такое говорить нельзя".

Также OpenAI нанимала опытных программистов, чтобы те писали решения программных задач с подробными комментариями на человеческом языке. Разработчиков просили не просто дать правильный код, но и объяснить словами, что они делают, и даже если допущена ошибка - описать, в чем баг и как его исправить. Для чего это нужно? Таким образом модель обучалась пояснять код и отыскивать ошибки. В будущем, получив схожее задание от пользователя, она может не только выдать код, но и добавить человеческие объяснения или пошагово найти ошибку - ведь видела, как это делают люди.

Также проводилась масштабная разметка диалогов: людям показывали варианты ответов бота на запрос и просили оценить, какой ответ лучше. Им нужно было упорядочить ответы от лучшего к худшему по качеству. Например, на запрос "Напиши короткое стихотворение о лете" бот мог сгенерировать несколько стишков - и разметчики ставили им места: это самый красивый, это похуже, этот совсем не в рифму. Такие ранжированные ответы собирались по множеству разных вопросов.

Все эти усилия нужны, чтобы потом, на этапе обучения с подкреплением, модель поняла, чего хотят люди. Буквально: какие ответы люди считают хорошими. В итоге накопили огромный специализированный датасет: примеров вопросов и идеальных ответов, примеров вопросов и нескольких ответов с ранжировкой. Эти наборы стали материалом для "воспитания" ChatGPT.

Важно отметить: компании не раскрывают всех деталей, но по открытым данным можно судить о масштабах. Например, наш аналог ChatGPT - модель GigaChat от Сбера - обучался на гигантском корпусе данных размером ~7,5 петабайт текстов (это как содержимое 50 крупнейших библиотек!). А для финальной настройки собрали более 500 тысяч пар "запрос-ответ" от людей для обычного дообучения и свыше 100 тысяч пар с ранжированными ответами для обучения с подкреплением. То есть сотня тысяч случаев, где человеку показывали несколько вариантов ответа и он расставлял оценки. Каждая такая оценка - вклад в то, чтобы ИИ стал чуточку умнее и человечнее.

Теперь, когда у нас есть представление, какие данные собираются, давайте пройдем по этапам обучения ChatGPT и посмотрим, как именно работает алгоритм RLHF.

Этапы обучения ChatGPT: от текстов к отзывам

Полный процесс обучения ChatGPT можно упростить до трех основных этапов. На каждом из них модель учится чему-то своему, и вместе эти шаги дают огромный эффект - на выходе получаем ассистента, разбирающегося в языках, следующего инструкциям и учитывающего человеческие предпочтения.

Шаг 1. Предварительное обучение на большом корпусе текстов.

На первом этапе берется огромная нейросеть (архитектуры трансформер) и кормится огромным массивом текста: книги, статьи, форумы, википедия - все подряд. Цель - научить модель обычному языку и базовым знаниям. Модель предсказывает следующие слова и предложения, пытаясь продолжить тексты из интернета. Она впитывает статистику языка: грамматику, факты, стили речи. Этот этап называют предобучением. Он самый ресурсозатратный: обучение может длиться недели и месяцы на тысячах GPU. После него модель уже умеет генерировать связный текст на любые темы. Но: такая модель пока не знает, чего хочет пользователь. Она просто завершает фразу вероятным продолжением. Ей непонятны понятия "правильный/неправильный ответ на вопрос", "разрешено/не разрешено говорить". Получается своего рода болванка, обладающая знанием языка, но не настроенная под задачи диалога.

Шаг 2. Донастройка на примерах правильных ответов (Supervised Fine-Tuning).

На втором этапе разработчики дообучают эту модель на конкретной задаче: выполнять пользовательские инструкции. Для этого из собранных людьми данных выбирают множество примеров запросов и качественных ответов (те самые, написанные людьми "идеальные ответы"). Иными словами, формируют обучающую выборку: вопрос -- хороший ответ. Дальше модель прогоняют по этим примерам: показывают вопрос, модель генерирует свой ответ, сравнивают с идеальным ответом и корректируют ее внутренние веса, уменьшая ошибку. Этот процесс - классическое обучение с учителем (supervised learning), только "учитель" - это набор человеческих ответов. После многих итераций модель привыкает отвечать более конкретно и по задаче, в стиле человеческих ответов. Она учится следовать инструкции: если в запросе сказано "приведи список", модель начинает отвечать списком; если сказано "объясни простыми словами" - старается упростить объяснение, и т.п. И все же, на этом шаге модель просто имитирует человеческие ответы из обучающей выборки. Она все еще может выдавать нежелательные вещи, если не встретила похожего примера в данных. К тому же, собрать абсолютно все типы запросов и идеальных ответов невозможно - всегда найдется новый вопрос, где модель растеряется. Поэтому нужен третий, самый хитрый этап.

Шаг 3. Обучение с подкреплением от человеческого отклика (RLHF).

Теперь вступает в игру сам алгоритм RLHF - обучение с подкреплением, о котором мы говорили. Этот этап делится на две части:

1. Тренировка модели вознаграждения (reward model). Раз у нас есть данные, где люди ранжировали ответы от лучшего к худшему, их можно превратить в числовой сигнал. Создается отдельная нейросеть - назовем ее модель оценки. Ее задача - по данному вопросу и ответу выдавать оценку: насколько этот ответ хорош по человеческим меркам. Эту модель обучают на данных: ей скармливают несколько ответов на один и тот же запрос, помеченных оценками (например: ответ A - лучшая оценка, B - средняя, C - худшая). Модель оценки подгоняет свои параметры так, чтобы выдавать более высокое число для ответа A, поменьше для B, еще меньше для C, стараясь повторить предпочтения человека. По сути, она учится предсказывать оценку качества ответа, близкую к человеческой.

После обучения получается удобный инструмент: такая модель может взять любой новый ответ и приблизительно сказать, насколько он понравился бы человеку (в числе). Это и есть наш "автоматический критик" или "модель вознаграждения".

2. Собственно обучение основной модели с подкреплением. Теперь возвращаемся к нашему "ученику" - основной модели (той самой, прошедшей шаг 2). Мы будем модифицировать ее ответы, ориентируясь на сигнал от модели-оценщика. Происходит итеративный процесс: основная модель генерирует ответ на некоторый запрос, затем модель вознаграждения оценивает этот ответ и выдает, грубо говоря, оценку удовлетворенности. Если оценка низкая - значит ответ не слишком хороший, надо основной модели измениться, чтобы следующая попытка дала более высокий балл. Если оценка высокая - модель подкрепляется положительно, "молодец, так держать". Для корректировки основной модели применяется алгоритм обучения с подкреплением (например, вариант алгоритма Proximal Policy Optimization, но детали не важны).

Важно понимать: модель как бы играет в игру "угоди оценщику". Ее "очками" служат именно предсказания модели вознаграждения, которая заменяет реального человека на миллионах возможных вопросов.

В ходе множества итераций основная нейросеть тонко подстраивает свои весы, максимизируя оценку. А поскольку оценщик обучен на человеческих предпочтениях, максимизация оценки означает, что ответы все больше соответствуют тому, что одобрил бы человек.

Основную модель несколько раз прогоняют через такой цикл генерации и подкрепления. В итоге она оптимизируется под человеческое предпочтение, но осторожно, чтобы не забыть и навыков из шагов 1 и 2. Можно сказать, происходит согласование ИИ с человеком: модель не просто говорит связно (шаг 1) и следует инструкциям (шаг 2), но еще и старается соответствовать качеству и тону, которые любят люди (шаг 3).

После этих трех шагов модель готова. Ее уже можно выпустить общаться с реальными пользователями - что OpenAI и сделала, представив ChatGPT широкой публике. Но на самом деле обучение на этом не остановилось: процесс итеративный. Модель продолжает улучшаться по мере получения новых отзывов.

Например, разработчики могут собрать свежие данные из чатов пользователей: где ChatGPT ошибся или ответил плохо - и дообучить модель, включая новые случаи. Фактически, запустив ChatGPT, компания получила миллионы взаимодействий, которые позволяют дальнейшее тонкое доводка (хотя это аккуратно контролируется, чтобы не сломать уже выученное).

Чем ChatGPT стал благодаря RLHF

Теперь, когда мы прошли по всем этапам, вернемся к главному вопросу: что же дало обучение с подкреплением от человека на практике?

Во-первых, ChatGPT стал гораздо более полезным. Он научился понимать намерения пользователя. Если вы задаете вопрос, он старается действительно ответить на него, а не уйти в сторону. Если просите о совете - дает совет, причем старается, чтобы он был адекватным. Если задача творческая - генерирует ответ творчески. Это получилось, потому что люди научили его, какие ответы удовлетворяют запрос. Модель больше не бредит и не отмалчивается там, где можно помочь - она хочет набрать высокий "человеческий рейтинг".
Во-вторых, модель стала заметно безопаснее и этичнее. Благодаря тому, что люди пометили вредный контент и нежелательные темы, ChatGPT теперь фильтрует ответы. Он избегает грубостей, не высказывает откровенно оскорбительных или дискриминационных идей. Спросите его что-то экстремистское - скорее всего, откажется отвечать. Попытайтесь вызвать у него токсичную брань - откажется. Попросите инструкцию по изготовлению чего-то опасного - и этого не даст. Конечно, система не совершенная, и время от времени пользователи находят способы обойти эти ограничения, но в целом уровень цензуры вредного контента в ChatGPT очень высок по сравнению с сырыми моделями.

Это результат целенаправленного обучения: помните кенийских модераторов? Благодаря их труду модель знает границы дозволенного. А оценки других людей научили ее вежливому, уважительному тону. Разработчики также ввели принципы HHH (Helpful, Honest, Harmless) - полезность, честность и безвредность - и с помощью RLHF приблизили поведение ИИ к этим принципам.

В-третьих, ChatGPT приобрел умение объяснять свои ответы и вообще вести диалог по-человечески. Это тонкий момент: большие языковые модели умеют болтать, но зачастую их ответы звучали механически или не учитывали ваши эмоции. После RLHF ChatGPT старается быть эмпатичным, добавлять фразы вроде "Понимаю, как это может быть сложно..." где уместно, структурировать ответ, как сделал бы человек-эксперт. Если вы попросите объяснить что-то простыми словами, он действительно объяснит, найдет аналогии - ведь в обучающем материале были примеры таких популярных объяснений. Опять же, это потому, что люди показывали примеры хороших объяснений, и модель переняла этот навык.
В-четвертых, именно благодаря RLHF качество ответов стало более стабильным. Базовая модель могла в 30% случаев давать отличный ответ, а в 70% - что-то среднее или совсем не то. После дообучения на человеческих предпочтениях доля провальных ответов снизилась, разброс качества сузился. В итоге пользователь почти всегда получает как минимум приличный ответ. А иногда - действительно блестящий, если вопрос удачно попал в область знаний модели.
И наконец, сочетание всех этих улучшений привело к тому, что ChatGPT покорил аудиторию. За считанные месяцы после запуска им начали пользоваться сотни миллионов людей по всему миру, он стал инструментом для работы, учебы, развлечения. Настолько массового успеха у ИИ не было никогда, и значительная заслуга в этом - именно у методики RLHF. Ведь подобные большие модели существовали (GPT-3 был доступен с 2020 года разработчикам), но именно дружелюбный интерфейс и поведение ChatGPT сделали его популярным. Люди чувствуют, что бот старается им помочь - и это результат целого слоя обучения поверх просто умения генерировать тексты.

Роль людей и будущее ИИ

Стоит подчеркнуть, что RLHF - это во многом про людей в цикле обучения ИИ. Без армии разметчиков и тестировщиков современный ИИ не был бы таким потрясающим. Это напоминает воспитание ребенка обществом: нужно много учителей и примеров, чтобы привить ценности и знания. Конечно, у этого подхода есть и ограничения:

Это дорого и долго. Тысячи человеко-часов тратятся на разметку. Например, один из инвесторов OpenAI упоминал, что обучение ChatGPT (включая сбор данных и вычислительные затраты) обошлось в десятки миллионов долларов. Не каждая компания в мире может себе это позволить.
Человеческие метки могут быть субъективными или несовершенными. Люди могут ошибаться, могут быть предвзяты. Если большинство разметчиков - из определенной культуры, их представления о "хорошем ответе" могут отличаться от представлений людей в другой стране. Это может приводить к смещению (bias) модели.

Например, кого-то беспокоит, что ценности, привитые ChatGPT, отражают взгляды Кремниевой долины и могут не учитывать мировоззрение, скажем, жителей РФ.

В идеале, для разных культур нужно тонкое локальное обучение. Кстати, поэтому в Сбере утверждают, что их GigaChat "учитывает национальный культурный код" - видимо, они отбирали разметчиков из русскоязычной среды и добавляли данные, релевантные нашей культуре.

RLHF не гарантирует полного послушания модели. Иногда нейросеть все равно может дать нежелательный ответ или "галлюцинировать" (уверенно утверждать то, чего нет). Полностью это не искоренено, хотя с каждым обновлением становится лучше. В будущем исследователи думают над еще более изощренными методами контроля и обучения, включая привлечение самих нейросетей к оценке друг друга или создание встроенных "этических модулей".

Тем не менее, обучение с подкреплением от человеческой обратной связи сегодня - базовый инструмент для разработки безопасного и полезного ИИ. Его уже применяют не только OpenAI. Компании типа Anthropic тренируют своих ассистентов по схожим принципам, вводя понятия вроде "Конституции ИИ" - набор правил, которые ИИ должен соблюдать, тоже подкрепленных человеческими оценками. В открытом сообществе тоже были попытки: проект OpenAssistant собирал волонтеров со всего мира, чтобы создать датасет для RLHF с открытым исходным кодом, пытаясь сделать альтернативу ChatGPT доступной всем. В общем, будущее ИИ во многом зависит от того, насколько эффективно мы научим машины нашим ценностям.

В контексте РФ эта технология также используется.

Сбербанк разработал собственного крупного ассистента GigaChat, и, судя по официальной информации, его обучали схожими этапами, включая RLHF: сначала на русско-английских текстах (чтобы знал языки), потом на паре сотен тысяч примеров инструкций с ответами, а затем с помощью оценок людей улучшали его ответы.

Это означает, что и в нашем пространстве ИИ учат понимать, что ценят наши пользователи. GigaChat, например, умеет отказывать на провокационные запросы ("может ответить: Извините, я не могу это сделать"), ориентируется в тонкостях русского языка, избегает американских реалий в ответах, если они неуместны. Это результат того, что наши специалисты вручную проверяли и настраивали модель под наш контекст. Можно ожидать, что и другие команды в СНГ будут применять RLHF, чтобы создавать местных виртуальных помощников - от голосовых ассистентов до образовательных ботов, учитывающих культурные нюансы.

Что это нам даёт?

Мы прошли по пути развития ChatGPT - от основ нейросетей до специфического алгоритма, сделавшего ChatGPT таким успешным. Давайте коротко повторим: большая языковая модель обучается на тоннах текстов, чтоб узнать язык; затем ее донастраивают на задачи с помощью примеров, а в финале учат на оценках людей быть полезной и безопасной. Этот последний шаг - Reinforcement Learning from Human Feedback (RLHF) - оказался решающим для превращения просто умного бота в действительно удобного собеседника.

RLHF - как мудрый наставник, который направляет юный талант: "вот так отвечать хорошо, а вот так не надо". Без такого наставника ИИ хоть и умен, но бестактен или непредсказуем. С наставником - начинает понимать нас гораздо лучше.

Конечно, работа не останавливается. ИИ продолжают обучать, корректировать, придумывать новые способы встроить человеческие ценности. Возможно, в будущем появятся методы, где роль человека будет меньше (например, ИИ сами будут генерировать и оценивать ответы по заданным этическим правилам). Но пока что человек остается в центре обучения: наши знания, наши предпочтения ложатся в основу поведения машин.

Так что, когда в следующий раз вежливо поблагодарите ChatGPT за отличный совет или шутку, знайте - где-то за кулисами сотни людей потрудились, чтобы научить его этому. И, кто знает, возможно и вы косвенно участвуете в обучении: ведь каждый ваш рейтинг ответа - это крупица обратной связи, которая может пойти на пользу будущим моделям!

Давайте осудим в комментариях, что вы думаете о развитии AI?

Еще больше полезного контента и построении карьеры в IT в нашем ТГ-канале:

t.me

API. Архитектура. Веб-сервисы