3191 подписчик

Как на самом деле работает ChatGPT: объяснение на простом и доступном языке.

2 мая 20232 мая 2023

1090

7 мин

Оглавление

Языковые модели и NLP.
Архитектура трансформера.
От трансформеров к GPT, GPT2 и GPT3.

Выход ChatGPT, созданный OpenAI в конце прошлого года, вызвал огромный интерес и восторг у пользователей. Эта уникальная технология способна генерировать язык, который похож на человеческий, и уже успела найти применение в различных продуктах. Более того, ее успешный запуск подтолкнул к действию и других гигантов технологической отрасли, таких как Google, которые теперь торопятся выпустить свою собственную версию ChatGPT. https://macim.ru

Однако, для тех, кто не является техническим экспертом, внутреннее устройство ChatGPT может показаться сложным и непонятным. Но не стоит беспокоиться! В этой статье мы постараемся объяснить технологию и модель, лежащие в основе ChatGPT, максимально простым языком.

GPT, который развивался из исходной архитектуры трансформера, получил свои возможности благодаря многократным итерациям. Если вы не знакомы с терминами, не переживайте! Мы постараемся объяснить все по порядку.

Мы начнём с обобщенного обзора языковых моделей и NLP, затем перейдем к оригинальной архитектуре трансформера, затем к тому, как GPT адаптировал архитектуру трансформера, и, наконец, к тому, как ChatGPT настраивается на основе GPT.

Языковые модели и NLP.

Существует огромное количество моделей искусственного интеллекта и глубокого обучения, каждая из которых предназначена для решения определенных задач. В частности, для обработки естественного языка (Natural Language Processing - NLP), таких как беседы, распознавание речи, перевод и краткое изложение, мы используем языковые модели. Они позволяют изучать библиотеку текста (корпус) и предсказывать слова или последовательности слов с вероятностными распределениями, то есть определять, насколько вероятно появление того или иного слова или последовательности слов.

Например, если вы говорите «Том любит есть ...», вероятность того, что следующее слово будет «пицца», будет выше, чем «стол». Если модель предсказывает следующее слово в последовательности, это называется предсказанием следующего токена. Если же модель предсказывает отсутствующее слово в последовательности, это называется моделированием маскировки языка.

Так как это вероятностное распределение, может быть много вероятных слов с разными вероятностями. Хотя вы можете думать, что всегда лучше выбирать лучшего кандидата с наивысшей вероятностью, это может привести к повторяющимся последовательностям. Поэтому на практике исследователи добавляют некоторую случайность (температуру) при выборе слова из топ-кандидатов.

В типичном процессе обработки естественного языка (NLP) входной текст проходит следующие этапы:

Предобработка: очистка текста с помощью методов, таких как сегментация предложений, токенизация (разбиение текста на маленькие части, называемые токенами), стемминг (удаление суффиксов или префиксов), удаление стоп-слов, исправление орфографии. Например, «Том любит есть пиццу» будет токенизировано как [«Том», «любит», «есть», «пицца»].
Кодирование или встраивание: преобразование очищенного текста в вектор чисел, чтобы модель могла его обработать.
Подача на вход модели: передача закодированного входа модели для обработки.
Получение результата: получение результата вероятностного распределения потенциальных слов, представленных векторами чисел, от модели.
Декодирование: преобразование вектора обратно в слова, читаемые человеком.
Постобработка: улучшение вывода с помощью проверки орфографии, проверки грамматики, пунктуации, заглавных букв и т.д.

Исследователи искусственного интеллекта придумали множество различных архитектур моделей. Трансформеры были в тренде в последние годы и стали основой для GPT. В следующем разделе мы рассмотрим компоненты и механизмы трансформеров.

Архитектура трансформера.

Архитектура трансформера является основой для GPT. Она представляет собой тип нейронной сети, которая напоминает работу нейронов в нашем мозге. Трансформер способен более точно анализировать контексты в последовательных данных, таких как текст, речь или музыка, благодаря механизмам, называемым вниманием и самовниманием.

Механизм внимания позволяет модели сосредоточиться на наиболее значимых частях ввода и вывода, изучая взаимосвязь или сходство между элементами, которые представлены векторами. Если модель фокусируется на той же последовательности, это называется самовниманием.

Давайте возьмем следующее предложение в качестве примера: «Том любит есть яблоки. Он ест их каждый день» В этом предложении «он» относится к «Тому», а «их» относится к «яблокам». И механизм внимания использует математический алгоритм, чтобы сообщить модели, что эти слова связаны, вычисляя оценку сходства между векторами слов. Благодаря этому механизму трансформеры могут лучше «понимать» значения в текстовых последовательностях более связанным образом.

У трансформеров есть следующие компоненты:

Встраивание и позиционное кодирование: превращение слов в векторы чисел.
Энкодер: извлечение признаков из входной последовательности и анализ ее значения и контекста. Он выдает матрицу скрытых состояний для каждого входного токена, которую следует передать декодеру.
Декодер: генерация выходной последовательности на основе вывода из энкодера и предыдущих выходных токенов.
Линейный и Softmax-слои: превращение вектора в вероятностное распределение выходных слов

Энкодер и декодер являются основными компонентами архитектуры трансформеров. Энкодер отвечает за анализ "понимание" входного текста, а декодер - за генерацию выходного.

От трансформеров к GPT, GPT2 и GPT3.

Полное название GPT - Generative Pre-trained Transformer (Генеративный Предобученный Трансформер). Из названия видно, что это генеративная модель, хорошо работающая с генерацией выходных данных; она предварительно обучена, что означает, что она учитывала большой корпус текстовых данных; это тип трансформера.

В обучении первой версии GPT исследователи использовали надзорное предварительное обучение с базой данных BookCorpus, состоящей из более чем 7000 уникальных неопубликованных книг. Ненадзорное обучение похоже на то, что искусственный интеллект самостоятельно читает эти книги и пытается узнать общие правила языка и слов. На основе предварительного обучения они также использовали надзорную тонкую настройку на конкретные задачи, такие как резюмирование или ответы на вопросы.

В GPT-2 исследователи расширили размер модели (1,5 млрд параметров) и корпус, который они использовали для обучения, с помощью WebText - коллекции миллионов веб-страниц - в процессе наблюдения за обучением без учителя.

В GPT-3 исследователи шли еще дальше и расширили модель до 175 миллиардов параметров, используя огромный корпус, включающий сотни миллиардов слов из веб-страниц, книг и Википедии.

Обучение GPT взаимодействию с людьми: InstructGPT и ChatGPT.

После итераций от GPT до GPT-3 с увеличением размера моделей и объема корпуса, исследователи поняли, что большие модели не обязательно могут хорошо следовать человеческому намерению и могут производить вредные выводы. Поэтому они попытались дообучить GPT-3 с применением обучения с учителем и обучения с подкреплением от обратной связи человека. Эти обучающие шаги привели к появлению двух дообученных моделей - InstructGPT и ChatGPT.

Первый шаг - это обучение с учителем на примерах, предоставленных людьми. Исследователи сначала предоставили предварительно обученной модели GPT набор примеров в виде пар запрос-ответ, написанных человеческими маркерами.

Второй шаг - это обучение модели вознаграждения для оценки ответов от генеративной модели. Исследователи использовали SFT-модель, чтобы сгенерировать несколько ответов на каждый запрос и попросили людей-маркеров ранжировать ответы от лучшего к худшему по качеству, заинтересованности, информативности, безопасности, согласованности и соответствию. Запросы, ответы и ранжирование передаются модели вознаграждения, чтобы она узнала предпочтения людей в ответах через обучение с учителем.

На третьем этапе исследователи использовали модель вознаграждения, чтобы оптимизировать политику SFT-модели через обучение с подкреплением. SFT-модель генерирует ответ на новый запрос; модель вознаграждения оценивает ответ и дает ему значение вознаграждения, приближенное к предпочтениям людей; вознаграждение затем используется для оптимизации генеративной модели путем обновления ее параметров.

Через этот процесс с обучением с учителем и обучением с подкреплением на основе обратной связи от людей модель InstructGPT (с только 1,3 млрд параметров) способна лучше выполнять задачи, следующие за инструкциями человека, чем модель GPT-3 (с 175 млрд параметров).

ChatGPT является моделью-братом InstructGPT и обучается на примерах разговорных задач, таких как ответы на вопросы, общение, викторины. Благодаря такому обучению ChatGPT может вести естественные разговоры с людьми в диалогах.

Резюмируя, мы надеемся, что теперь у вас более ясное представление о том, как работает модель ChatGPT и как она развивалась до того, как стала тем, что есть сегодня.

Источник: https://clck.ru/34JNSJ

Переходите на наш сайт macim. ru уже сегодня, чтобы не упустить уникальные предложения, эксклюзивный контент и возможности увеличения заработка.

Присоединяйтесь к нашему вебинару. Будущее уже здесь, и нейросети помогут вам оказаться на шаг впереди, обогнать ваших конкурентов и коллег, увеличить свой заработок и свое благосостояние, и смотреть в будущее более уверенно!