Самая потрясающая способность ChatGPT заключается в том, что он может отвечать на вопросы пользователей посредством диалога.
По какому принципу ChatGPT отвечает на вопросы?
Традиционная система вопросов и ответов по существу основана на базах данных и поисковых системах, то есть с помощью поисковых систем осуществляется поиск релевантной информации в Интернете и базах данных, а затем возвращаются результаты непосредственно пользователю.
Например, если мы используем Яндекс для поиска “В чем принцип машинного обучения”, Яндекс приведёт на различные веб-сайты. Эти веб-сайты были разработаны различными компаниями давным-давно, и Яндекс отсортировала их только по их актуальности.
В отличие от традиционных систем вопросов и ответов, где ответы поступают из готовой сети или базы данных, ответы ChatGPT генерируются автоматически по мере постановки вопросов.
Это немного похоже на текстовый пасьянс. ChatGPT продолжит генерировать подходящий ответ на основе предыдущих слов до тех пор, пока не почувствует, что найден нужный.
Например, мы спрашиваем ChatGPT: “Является ли яблоко фруктом?” ChatGPT выполнит "текстовый пасьянс" на основе этого предложения. Примерный процесс выглядит следующим образом:
Основываясь на приведенном выше распределении вероятностей, ChatGPT выберет ответ с наибольшей вероятностью, то есть “да” (поскольку его вероятность 0,8 значительно больше, чем у других вариантов).
На данный момент содержание этого предложения становится следующим: “Является ли яблоко фруктом?"Да", ChatGPT посмотрит на следующее возможное слово и какова соответствующая вероятность.
Этот процесс идёт непрерывно, пока не получите полный ответ. Как видно из приведённого выше примера, в отличие от традиционных вопросов и ответов, основанных на базах данных или поисковых системах, ответы ChatGPT автоматически генерируются вместе с вопросами после того, как пользователь вводит вопросы. Этот вид генерации, по сути, представляет собой текстовый пасьянс.
Проще говоря, он постоянно перебирает словарный запас с наибольшей вероятностью из всех возможных для генерации ответа.
У нас возникнет вопрос, откуда ChatGPT знает, какой ответ выбрать, и как он определяет вероятность каждого возможного ответа? В этом и заключается магия технологии машинного обучения.
Суть машинного обучения: имитация людей для обучения.
Общая идея машинного обучения заключается в том, чтобы извлекать уроки из процесса обучения человека. Люди наблюдают и обобщают реальную ситуацию объективного мира и извлекают из нее соответствующие законы.
Сталкиваясь с неизвестной ситуацией, они будут использовать законы, которым научились, для решения неизвестных им проблем. Точно так же мы надеемся, что компьютеры смогут автоматически обнаруживать определенный «закон» из огромных объемов данных и применять этот закон к некоторым новым проблемам. Такого рода закон называется «моделью» в области машинного обучения, а процесс обучения называется обучением модели.
Что касается обучения модели, то за всеми моделями машинного обучения стоит предположение: закон обучения может быть выражен математически.
Суть машинного обучения заключается в поиске способа нахождения математической функции, максимально приближенной к реальному математическому выражению. Однако во многих случаях люди не знают, каково реальное математическое представление, и они не могут быть получены традиционным математическим выводом.
Единственное, что есть у людей, — это набор данных, полученных из реальных ситуаций. Метод машинного обучения заключается в использовании этих данных (обучающих данных) для обучения нашей модели, чтобы модель могла автоматически находить результат лучшей аппроксимации.
Например, применение распознавания лиц заключается в поиске функции. Входом этой функции является фотография лица, а выходом — определение того, какому человеку соответствует фотография. Однако люди не знают, какой формы функция распознавания лиц, поэтому они делают много фотографий лиц, помечают человека, соответствующего каждому лицу, и передают их модели для обучения, чтобы модель могла автоматически найти лучшую функцию распознавания лиц. Это то, что делает машинное обучение.
Нейронная сеть.
За последние несколько десятилетий ученые изобрели множество различных моделей машинного обучения, и наиболее перспективной из них является модель под названием «нейронная сеть». Модель нейронной сети изначально была основана на явлении из биологии: инфраструктура человеческих нейронов очень проста и может выполнять только некоторую базовую работу по обработке сигналов, но, в конце концов, сложное мышление может быть реализовано с помощью мозга.
Вдохновленные этим, ученые начали думать о том, возможно ли построить несколько простых «нейронов» и сформировать сеть за счет соединений нейронов, в результате чего появилась бы способность обрабатывать сложную информацию.
Исходя из этого, базовой единицей нейронной сети является модель нейронов, которая может выполнять только простые вычисления. Предполагая, что входные данные имеют 2 измерения (x, x), тогда эту нейронную сеть можно записать в виде: y = σ(wx + wx + b).
Способность таких вышеуказанных нейронов к математическому выражению очень слабая, это всего лишь комбинация простой линейной функции и функции активации. Но мы можем легко усилить модель, и решение состоит в добавлении большего количества «скрытых узлов».
В настоящее время каждый узел выполняет довольно простые вычисления, но если их объединить, то они смогут решать гораздо более сложные задачи.
Можно самим попробовать использовать приведенную выше формулу для написания формулы, соответствующей простому многослойному персептрону, и вы получите очень сложную формулу. Эта модель является базовой моделью для глубокого обучения в будущем, а именно многослойным персептроном.
Принцип многослойного персептрона очень прост, но с его помощью можно хорошо понять принцип работы нейронных сетей: один нейрон это очень просто, но модель может быть очень мощной за счет комбинации большого количества узлов.
Это лишь малая часть того, что из себя представляет нейросеть. Но в кратце, надеюсь понятно, как происходит генерация ответа нейросети. А в целом можно резюмировать так:
- ChatGPT - это, по сути, словесный пасьянс, в котором выбирается ответ на основе вероятности.
- За GGPT стоит очень большая нейронная сеть. Например, GPT-3 имеет 170 миллиардов параметров.
- Основанная на огромной нейронной сети, модель, сталкиваясь с предложением, может точно дать вероятность ответа, чтобы завершить операцию "текстового пасьянса".
- Такого рода модель для обработки языка в огромных масштабах также называется большой языковой моделью.
- Большая языковая модель, представленная GPT, обладает способностью запоминать контекст, поэтому хорошее слово-подсказка имеет важное значение.
Спасибо, что дочитали до конца!
Ставьте лайки и подписывайтесь на канал, чтобы быть в курсе всех событий и расширить свои знания о нашей невероятной Вселенной! 🌌🚀