Chat GPT по-русски: на что способна нейросеть от Яндекса
YandexGPT — модель искусственного интеллекта, которая генерирует текст на основе запроса человека. Для пользователя это выглядит как диалог с другом в мессенджере.
Модель можно использовать, чтобы создавать контент в маркетинге, рекламе и журналистике или для личных задач. Например, придумать сказку, рецепт блюда или текст письма. Весной 2023 YandexGPT добавили в Алису. Так Яндекс стал первой компанией, которая применила подобную модель в голосовом помощнике.
YandexGPT называется так, потому что работает по аналогии с языковой моделью GPT компании Open AI. Её используют в ChatGPT — чат-боте для генерации текста и кода, который запустили в открытый доступ в декабре 2022 года. За первые два месяца работы ботом воспользовались 100 млн человек.
Чтобы YandexGPT мог поддерживать диалог с человеком, его обучали в два этапа:
1. Pretraining
На этом этапе формируется эрудиция модели. Она изучает структуру языка и факты о том, как устроен мир, на датасетах. Это массивы данных, которые собирают разработчики. Если брать все данные подряд, модель выучит в том числе и неверные факты и будет отвечать неправильно. Поэтому данные для датасета сначала собирают из открытых источников, а затем фильтруют, чтобы осталось как можно больше полезных.
2. Fine-tuning
На этом этапе YandexGPT обучали на датасете из сотен тысяч запросов (инстрактов) и ответов на них. Чтобы в набор данных попало как можно больше разнообразных инстрактов, разработчики проанализировали запросы в поиске, обращения к Алисе и собрали примеры запросов коллег внутри компании. Написать качественные ответы на такие запросы — ещё сложнее. Человеку нужно быть либо экспертом в теме, либо уметь быстро в ней разобраться. Затем важно проверить достоверность информации и грамотно сформулировать мысль. Эти навыки есть у AI-тренеров — специалистов с редакторским опытом, которые помогают готовить ответы на запросы для нейросети. AI-тренеры, сотрудники Яндекса и удалённые асессоры (проводят фактчекинг, оценивают и составляют тексты) составили несколько сотен тысяч ответов на инстракты. Около половины из них стали основой для датасета, на котором обучалась YandexGPT.
Если просто показывать модели примеры хорошего поведения, она будет пробовать его воспроизводить, но всё равно может ошибаться. ChatGPT часто фантазирует вместо того, чтобы честно отвечать, что чего-то не знает. Улучшать ответы в моделях GPT получается с помощью человека. Он указывает, какие ответы хороши, а какие — с фактическими ошибками или неуклюже сформулированы. Такая модель обучения называется обучением с подкреплением на основе отзывов (Reinforcement learning from Human Feedback). В следующих версиях YaGPT планируют добавить этот этап в обучение модели.
Использовать чат-боты с языковыми моделями GPT можно в любом направлении — от аналитики до дизайна и маркетинга. Например, попросить сгенерировать запрос, по которому нейросеть нарисует иллюстрацию для рекламной кампании, или придумать описание для карточки товара. Во многих профессиях маркетинга широко используют современные нейросети для решения рабочих задач. А если вы еще не определись с направлением, тогда бесплатный курс «Какую профессию в маркетинге выбрать» поможет разобраться, какие профессии сейчас востребованы, чем занимаются разные специалисты и как построить успешную карьеру.
Что умеет чат-бот YandexGPT
На момент написания статьи (в августе 2023) у модели такие достижения:
● Помогает генерировать текст. Это может быть ответ на вопрос или текст, который содержит не факты, а эмоциональные оценки. Например, нужно кого-то похвалить или написать поздравление. Модель ещё учится, поэтому для подходящего варианта может потребоваться несколько генераций ответа.
● Помогает написать простой код. Например, HTML страницы.
● Понимает контекст. YandexGPT в Алисе запоминает, о чём её спрашивали, поэтому отвечает на уточняющие вопросы. Например, можно попросить добавить цифр или рассказать подробнее.
● Кратко пересказывает статьи. Большую статью нейросеть превращает в список тезисов. Удобно, когда нужно побыстрее разобраться в материале и выбрать ценные источники.
● Помогает делать посты в «Шедевруме» — приложении Яндекса, где генерируют картинки по текстовым описаниям. YandexGPT создаёт там тексты для постов — рассказы, шутки стихи. Нейросети подбирают к ним заголовки и картинки, которые сгенерировали пользователи «Шедеврума».
● Создаёт карточки товаров. Нейросеть помогает продавцам готовить описания для товаров на Маркете. В карточку нужно добавить как можно больше данных и нажать «Создать с YaGPT». Нейросеть проанализирует их и сгенерирует продающий текст.
● Форматирует текст. YandexGPT оформляет ответ, если попросить. Например, выделяет цитаты, программный код или заголовки.
● Выделяет главное из отзывов на товары и обобщает информацию из них в коротком списке преимуществ и недостатков. Функция работает в поиске Яндекса и на Маркете.