GPT-3 (Generative Pre-trained Transformer 3) - это языковая модель, созданная исследовательской лабораторией искусственного интеллекта OpenAI в Сан-Франциско. Модель глубокого обучения с 175 миллиардами параметров способна создавать человекоподобный текст и была обучена на больших текстовых наборах данных с сотнями миллиардов слов.
С прошлого лета GPT-3 попал в заголовки газет, и с помощью этого инструмента были созданы стартапы. Однако важно понимать факты, стоящие за тем, что такое GPT-3 на самом деле и как он работает, а не теряться во всей шумихе вокруг него и относиться к нему как к черному ящику, который может решить любую проблему.
В этой статье я дам вам общий обзор того, как работает GPT-3, а также сильные и слабые стороны модели и как вы можете использовать ее самостоятельно.
Как работает GPT-3?
По своей сути ГПТ-3 является в основном трансформаторной моделью. Трансформаторные модели-это последовательные модели глубокого обучения, которые могут производить последовательность текста, заданную входной последовательностью. Эти модели предназначены для задач генерации текста, таких как ответы на вопросы, суммирование текста и машинный перевод. На рисунке ниже показано, как модель трансформатора итеративно генерирует перевод на французский язык с учетом входной последовательности на английском языке.
Трансформаторные модели работают иначе, чем LSTM, используя несколько блоков, называемых блоками внимания, чтобы узнать, на каких частях текстовой последовательности важно сосредоточиться. Один трансформатор может иметь несколько отдельных блоков внимания, каждый из которых изучает отдельные аспекты языка-от частей речи до именованных сущностей. Для получения более подробного обзора того, как работают трансформаторы, вам следует ознакомиться с моей статьей ниже.
GPT-3-это третье поколение моделей языка GPT, созданных OpenAI. Главное отличие GPT-3 от предыдущих моделей-это его габариты. GPT-3 содержит 175 миллиардов параметров, что в 17 раз больше, чем GPT-2, и примерно в 10 раз больше, чем модель Microsoft Turing NLG. Ссылаясь на архитектуру трансформатора, описанную в моей предыдущей статье, приведенной выше, GPT-3 имеет 96 блоков внимания, каждый из которых содержит 96 головок внимания. Другими словами, GPT-3-это, по сути, гигантская модель трансформатора.
Основываясь на оригинальной статье, в которой была представлена эта модель, GPT-3 был обучен с использованием комбинации следующих больших текстовых наборов данных:
- Обычный Обход
- WebText2
- Книги 1
- Книги 2
- Корпус Википедии
Окончательный набор данных содержал большую часть веб-страниц из Интернета, гигантскую коллекцию книг и всю Википедию. Исследователи использовали этот набор данных с сотнями миллиардов слов для обучения GPT-3 генерировать текст на английском языке на нескольких других языках.
Почему GPT-3 так мощен?
GPT-3 попал в заголовки газет с прошлого лета, потому что он может выполнять широкий спектр задач на естественном языке и создает текст, похожий на человеческий. Задачи, которые может выполнять GPT-3, включают, но не ограничиваются ими:
- Классификация текста (т. е. анализ настроений)
- Ответ на вопрос
- Генерация текста
- Краткое изложение текста
- Распознавание именованных сущностей
- Языковой перевод
Основываясь на задачах, которые может выполнять GPT-3, мы можем думать о нем как о модели, которая может выполнять задачи понимания чтения и письма на почти человеческом уровне, за исключением того, что она видела больше текста, чем любой человек когда-либо прочитает за свою жизнь. Именно поэтому GPT-3 так мощен. Целые стартапы были созданы с GPT-3, потому что мы можем думать о нем как о швейцарском армейском ноже общего назначения для решения широкого спектра задач обработки естественного языка.
Как вы можете использовать GPT-3?
В настоящее время GPT-3 не является открытым исходным кодом, и OpenAI решил вместо этого сделать модель доступной через коммерческий API. Этот API находится в закрытой бета-версии, что означает, что вам нужно будет заполнить форму OpenAI API Waitlist, чтобы присоединиться к списку ожидания, чтобы использовать API.
OpenAI также имеет специальную программу для академических исследователей, которые хотят использовать GPT-3. Если вы хотите использовать GPT-3 для академических исследований, вы должны заполнить заявку на академический доступ.
В то время как GPT-3 не является открытым исходным кодом или общедоступным, его предшественник GPT-2 является открытым исходным кодом и доступен через библиотеку трансформаторов Hugging Face. Не стесняйтесь ознакомиться с документацией для реализации GPT-2 Hugging Face, если вы хотите использовать эту меньшую, но все же мощную языковую модель.
GPT-3 получил большое внимание с прошлого лета, потому что это, безусловно, самая большая и, возможно, самая мощная языковая модель, созданная на момент написания этой статьи. Однако GPT-3 все еще страдает несколькими ограничениями, которые делают его далеким от идеальной языковой модели или примера AGI.