В статье рассказываем о том, как компания true.code разработала сервис для создания сопроводительного письма в иммиграционную службу Новой Зеландии, используя генеративный искусственный интеллект нейросети GPT-3.
Искусственный интеллект (ИИ) становится все более востребованным для оптимизации процессов бизнеса. ИИ позволяет автоматизировать рутинные операции, сократить трудозатраты и повысить производительность. Наш постоянный заказчик Kiwi Immigration, понимая возможности и выгоды использования ИИ, обратился к нам для решения одной из таких задач.
Задача
Подготовка документов вручную занимала много времени, и заказчик поставил перед нами задачу — оптимизировать процесс обработки анкет и создания сопроводительного письма в иммиграционную службу Новой Зеландии.
Взаимодействие с заказчиком — ключевой фактор проекта
Во время предпроектного обследования команда true.code тесно сотрудничала с заказчиком. Мы провели несколько рабочих встреч, обсудили идеи реализации проекта и приняли решение: разработать автоматизированную систему для генерации сопроводительных писем в иммиграционную службу, используя возможности генеративного искусственного интеллекта нейросети GPT.
Неэффективность традиционного процесса составления документов
Компания Kiwi Immigration, бизнес-направление Новозеландской компании Kiwi Investment Group, оказывает юридические услуги по вопросам иммиграции в Новую Зеландию: консультации по получению виз, поиску работы, жилья, сервис подготовки необходимых документов и организации переезда. В компании подготовка юридических документов для клиентов выполняется вручную:
Оформление сопроводительного письма объемом 2–3 страницы требует от заказчика значительных временных затрат, от 30 минут до 1,5 часов, в зависимости от объема данных и требований к документу. Трудности ручного подхода: низкая скорость обработки анкет клиентов, высокая нагрузка на сотрудников и как следствие задержки в выполнении задач, ошибки и несоответствия в документе, падение общей продуктивности. Эти проблемы не только отнимали время и ресурсы заказчика от решения стратегических задач, но и негативно сказывались на качестве оказания услуг.
Концепция и разработка автоматизированной ИТ-системы
Для разработки сервиса мы взяли за основу принцип работы ИИ — использование алгоритмов, которые могут анализировать и извлекать информацию из набора данных (датасета) и генерировать новый контент. Команда true.code создала алгоритм генерации сопроводительного письма в иммиграционную службу, выявила закономерности, использовала и обучила модель GPT-3 davinci на примерах сопроводительных писем, разработанных заказчиком и на входных данных из анкет клиентов.
Создание и первичное обучение онлайн-модели GPT-3
Чтобы модель могла выдавать релевантные ответы относительно поставленной задачи, надо сначала загрузить в нее необходимую информацию, а потом обучить определенному алгоритму построения ответов на запросы заказчика.
Изначально модель искусственного интеллекта (AI или ИИ) не обладает способностью автоматически устанавливать логические связи и генерировать точные ответы. Когда наша команда начинала работу с GPT-3, модель не содержала никакой предварительной информации. Модель AI могла выдавать относительно адекватные ответы на базовые вопросы только на английском языке. Для релевантных ответов на русском языке у необученной модели отсутствовал необходимый формат ответа и способность использовать данные запроса в правильном контексте. Например, если требовалось подставить в сопроводительное письмо название ВУЗа, модель GPT-3 не понимала это и могла дать вместо названия, полное описание учебного заведения (Рис.1).
Для успешного первичного обучения модели GPT-3 эксперты true.code:
- определили область знаний, в которой модель будет работать — примеры разработанных заказчиком сопроводительных писем в иммиграционную службу Новой Зеландии;
- подготовили анкетные данные, для загрузки в модель.
Анализ и подготовка анкетных данных для загрузки в модель ИИ
Сопроводительные письма в иммиграционную службу юристы компании Kiwi Immigration готовили на основании анкетных данных клиентов. Заказчик обрабатывал анкеты вручную, формировал на каждого клиента отдельный файл и составлял соответствующий документ. Мы проанализировали этот бизнес-процесс и предложили другой подход, который позволит заказчику значительно сократить время обработки входных данных для их последующей загрузки в модель для обучения и тренировки искусственного интеллекта.
Мы разработали алгоритм обработки данных для загрузки в модель нейросети GPT-3 и ее обучения, который собирает данные из нескольких анкет в один файл и обеспечивает быструю генерацию любого количества документов, например, 30–40 писем единовременно.
Новый формат — это разбитый на колонки текстовый документ. В каждой колонке содержится информация о клиенте: ФИО, год рождения, первое образование, название учебного заведения, начало и завершение учебы и т. д. Заказчик берет данные из анкет клиентов, заполняет файл и отправляет в модель GPT-3 davinci, которая автоматически формирует сопроводительные письма для каждого клиента. Для обеспечения безопасности информации заказчика все данные передаются в модель в зашифрованном виде.
Этапы первичного обучения модели нейросети GPT для генерации сопроводительных писем
- Определили формат и структуру файла для обучения модели.
- Подобрали запросы (промпты) — контекст, который мы задаем модели перед запуском генерации текста. Мы провели тщательный анализ и экспериментировали с различными запросами. Выбор правильного запроса помогает модели ИИ точно понимать ожидаемый тип ответа и генерировать сопроводительные письма, соответствующие требованиям заказчика.
- Автоматизировали преобразование формата входных данных заказчика (CSV-файлов) в формат для загрузки и обучения модели GPT-3 (JSONL). Такой формат обеспечивает модели понятную структуру данных. Это позволило модели эффективно обучаться на представленных примерах и генерировать сопроводительные письма с высокой точностью.
- Создали механизм, который автоматически подставляет последнюю обученную модель в запросы заказчика. Когда модель прошла первичное обучение с использованием подобранного формата файла и запросов, мы использовали ее ответы для последующего обучения. При каждом запросе модель автоматически подставляет последнюю обученную версию себя и генерирует наиболее релевантные и информативные ответы.
- Реализовали для заказчика функцию настройки параметров запросов. Параметры позволяют заказчику настроить получаемые результаты, сопроводительные письма, под свои потребности и предпочтения. Например, presence_penalty позволяет контролировать, насколько модель учитывает свои предыдущие ответы, для генерации новых. Temperature управляет разнообразием генерируемых ответов, а repeat_penalty помогает предотвратить дублирование фраз или фрагментов в сгенерированном тексте.
- Разработали механизм сохранения в базе данных ответов модели, которые заказчик отметил как верные и соответствующие задаче. Это позволяет создавать новые файлы обучения и использовать данные для улучшения алгоритма в будущем.
Первичное обучение позволило загрузить в модель ИИ базовые письма и структуру документа, необходимые для решения конкретной задачи — генерация сопроводительного письма, а также настроить параметры модели в соответствии с требованиями заказчика.
Интерфейс сервиса
Кроме подготовки модели и ее первичного обучения, ИТ-решение включало создание полноценного сервиса. Для удобства взаимодействия с онлайн-моделью GPT-3 мы разработали интерфейс, который позволяет заказчику:
- формировать запросы к обученной модели ИИ для создания текста с базовыми регулировками настроек запроса;
- изменять настройки запроса и повторно генерировать текст с начальными входными данными. Это позволяет заказчику экспериментировать с параметрами и получать разные варианты сопроводительного письма;
- отмечать правильные или наиболее релевантные ответы и использовать их для дальнейшего обучения модели. Так, разработанная модель нейросети GPT становится более точной и соответствующей требованиям заказчика;
- загружать входные данные (CSV-файлы) для обучения модели. Интерфейс отображает ошибки в файле, если они есть, и позволяет выбрать нужные версии обучения.
Вызовы
В модели нейросети GPT загрузка данных происходит через определенные разделители. Например, надо ввести имя и год рождения клиента KIWI Immigration , формат данных будет выглядеть так: «Иван:1973». На определенном этапе обработки загруженных данных модель начала выдавать в готовом сопроводительном письме «слипшиеся» предложения. Модель пыталась вставить данные в соответствующие части письма, но при этом они слипались.
Мы проанализировали ошибку и выяснили, что проблема в формате данных, которые загружал заказчик, как идеальные варианты документа (Рис.2). Модель не могла их правильно интерпретировать. Необходимо было изменить формат, явно указать разделители или добавить пробелы перед- и после соответствующих данных в файле — «_Иван_:_1973_». Мы внесли соответствующие изменения в формат данных, и ошибка была успешно исправлена.
Преимущества и результаты
Мы создали онлайн-сервис на основе нейросети GPT, который позволил компании заказчика KIWI Immigration:
- Сократить время создания сопроводительного письма в иммиграционную службу в два раза.
- Создавать качественные сопроводительные письма, без необходимости дополнительного обучения персонала.
- Снизить количество ошибок, связанных с человеческим фактором.
- Увеличить количество успешных визовых кейсов.
Важная особенность разработанного нами сервиса — возможность итеративного обучения модели ИИ. Это позволяет сделать модель более точной, адаптивной и релевантной для конкретных задач. Например, когда клиент указывает, какой вариант сопроводительного письма является идеальным, система использует эту информацию для обучения модели. Таким образом, модель нейросети GPT постепенно настраивается на предпочтения и требования клиента.
Планы на будущее и возможные улучшения
Мы провели первичное обучение модели GPT-3 davinci и разработали онлайн-сервис, который позволяет загружать, получать, анализировать данные и делать выводы. Заказчик продолжит обучать модель самостоятельно до достижения нужного результата. Это первый шаг к оптимизации бизнес-процессов KIWI Immigration, который позволит в дальнейшем автоматизировать и другие ручные операции. Когда сопроводительное письмо будет соответствовать требованиям заказчика на 99%, мы перейдем к реализации следующих этапов:
- Автоматизация передачи данных напрямую из анкеты в модель GPT-3, генерация результатов и отправка готового сопроводительного письма клиенту KIWI Immigration.
- Расширение сферы применения разработанной онлайн-модели нейросети GPT-3. Например, создавать модели для генерации различных видов сопроводительных писем и заявлений в учебные заведения или для поиска работы.
- Создание онлайн-помощника на основе ИИ, который будет отвечать на вопросы и помогать пользователям заказчика найти необходимую информацию на сайте быстро и легко, сокращая время поиска и улучшая общее взаимодействие с сайтом.
- Автоматизация ответов на письма клиентов KIWI Immigration через сайт. Задача обучить модель ИИ таким образом, чтобы она адекватно отвечала на вопросы клиентов в соответствии с требованиями заказчика. Например, если клиент спрашивает: «Я хочу иммигрировать в Новую Зеландию и поступить в университет», модель должна выдать информацию о том, чем занимается компания KIWI Immigration, предложить посетить определенную страницу, где можно получить необходимую информацию, и предложить оставить заявку для связи с менеджером. Такую модель можно использовать как в чате, так и в почтовом сервисе.
Стек технологий: PHP 8, official Python bindings openai, MS SQL
Больше кейсов и статей: