В этой статье мы рассмотрим новую модель генерации текста, называемую OpenOrca. Orca - это проект Microsoft, который показал, что меньшая модель с 13 миллиардами параметров может превзойти большие модели, такие как GPT-3 или ChatGPT, на ряде задач, благодаря тщательному созданию набора данных. Microsoft пока не выпустила ни набор данных, ни модель Orca, но уже есть несколько открытых проектов, которые пытаются повторить результаты оригинальной статьи Orca. Один из таких проектов - это OpenOrca, который только что выпустил модель с 13 миллиардами параметров, обученную на наборе данных, который они называют Открытым набором данных Orca.
Что такое OpenOrca?
OpenOrca - это набор данных для обучения моделей генерации текста, который состоит из около 4 миллионов завершений GPT-4 и GPT-3.5. Завершения были получены с помощью специальных шаблонов запросов, которые имитируют различные типы системных сообщений или подсказок для пользователя. Например, один из шаблонов может быть таким: “Вы - ИИ-система, которая помогает людям писать эссе. Предоставьте подробный ответ на следующий вопрос: …”. Затем этот шаблон заполняется различными вопросами из разных доменов и отправляется в GPT-4 или GPT-3.5 для получения завершений. Эти завершения затем фильтруются и аннотируются с помощью краудсорсинга и автоматических метрик качества.
Цель этого процесса - создать высококачественный и разнообразный набор данных для обучения моделей генерации текста, которые могут адаптироваться к различным контекстам и потребностям пользователей. Это соответствует методологии Орка, которая также использовала GPT-3 для создания своего набора данных.
Как работает модель OpenOrca?
Модель Открытого Орка - это модель LLaMA с 13 миллиардами параметров, которая была дообучена на Открытом наборе данных Orca. LLaMA - это архитектура модели генерации текста, основанная на трансформерах, которая использует механизм внимания с несколькими головками для кодирования и декодирования текста. Модель OpenOrca может генерировать текст по заданному запросу, который может содержать системное сообщение или подсказку для пользователя, а также начальный фрагмент текста. Модель пытается продолжить текст, учитывая контекст и цель запроса.
Модель OpenOrca называется превью-моделью, потому что она была обучена только на 6% от всего набора данных, то есть на около 200 тысячах примеров. Тем не менее, она показывает значительное улучшение по сравнению с результатами, представленными в статье Orca. Например, на задаче генерации эссе модель OpenOrca достигает среднего балла 3.8 по пятибалльной шкале, в то время как модель Orca имеет средний балл 2.4. Это свидетельствует о важности качественного набора данных для обучения моделей генерации текста.
Как использовать модель OpenOrca?
Модель OpenOrca доступна на платформе HuggingFace, где вы можете скачать ее и запустить локально или использовать веб-интерфейс для генерации текста. Для использования модели вам нужно скопировать идентификатор репозитория модели и вставить его в веб-интерфейс. Затем вы можете выбрать один из 15 типов системных сообщений или подсказок для пользователя, которые были использованы при создании набора данных. Эти системные сообщения определяют тон и стиль ответа модели, а также ее способность адаптироваться к различным задачам. Например, вы можете выбрать системное сообщение “Вы - ИИ-система, которая помогает людям писать эссе. Предоставьте подробный ответ на следующий вопрос: …”, если вы хотите получить помощь в написании эссе. Затем вы можете ввести свой вопрос и начальный фрагмент текста, если он есть, и нажать кнопку “Сгенерировать”. Модель выдаст вам продолжение текста, которое будет соответствовать вашему запросу.