15 подписчиков

Как мы автоматизировали обработку договоров для специализированного депозитария

1 апреля1 апр

3 мин

В этой статье хотим поделиться реальным проектом, который помог клиенту избавиться от сотен ошибок в документах и снизить риски многомиллионных штрафов. Кейс — про внедрение нейросетевой модели для извлечения данных из договоров. Наш клиент — специализированный депозитарий. Ежедневно его сотрудники обрабатывали сотни сложных договоров: запросы на распоряжение имуществом паевых инвестиционных фондов. В каждом документе — десятки юридически значимых параметров: ФИО, ИНН, ОГРН, адреса, даты, номера документов, суммы, кадастровые номера, реквизиты счетов. В процесс было вовлечено около 30 операторов. Они вручную вносили данные в систему. К концу дня количество ошибок возрастало в 3–5 раз — падала концентрация, а договоры становились всё сложнее. Цена ошибки оказалась слишком высокой. Если какой‑то параметр вводили неправильно, нарушалась логика исполнения договора. А это приводило к штрафам за неисполнение — в том числе по договорам на миллионы рублей, судебным разбирательствам и репутацио

Оглавление

С чем пришли
Что сделали
Какие получили результаты

С чем пришли

Наш клиент — специализированный депозитарий. Ежедневно его сотрудники обрабатывали сотни сложных договоров: запросы на распоряжение имуществом паевых инвестиционных фондов. В каждом документе — десятки юридически значимых параметров: ФИО, ИНН, ОГРН, адреса, даты, номера документов, суммы, кадастровые номера, реквизиты счетов.

В процесс было вовлечено около 30 операторов. Они вручную вносили данные в систему. К концу дня количество ошибок возрастало в 3–5 раз — падала концентрация, а договоры становились всё сложнее.

Цена ошибки оказалась слишком высокой. Если какой‑то параметр вводили неправильно, нарушалась логика исполнения договора. А это приводило к штрафам за неисполнение — в том числе по договорам на миллионы рублей, судебным разбирательствам и репутационным потерям на рынке.

Перед нами стояла цель: автоматизировать извлечение параметров из документов, снизить нагрузку на операторов и риск ошибок, а затем сформировать JSON/XML-объект с выделенными сущностями для интеграции в существующие IT-системы клиента.

Что сделали

Первым делом мы проанализировали 789 документов — в основном это были те самые запросы на распоряжение имуществом ПИФов. На основе анализа определили ключевые сущности, которые нужно извлекать: ФИО, ИНН, ОГРН, адреса, даты, номера документов, суммы, кадастровые номера и другие.

Затем обучили нейросетевую модель NER (извлечение именованных сущностей) на собственной архитектуре BiLSTM. Важно было учесть морфологию русского языка, поэтому добавили токенизацию и символьные векторные представления — это повышает точность, когда модель встречает новые слова.

Отдельно создали систему предварительной очистки, исправления пунктуации и токенизации именно под русский язык. Оказалось, что англоязычные инструменты с этой задачей не справлялись.

Часть документов поступала в виде PDF-сканов. Для них мы использовали OCR на базе Tesseract — это был этап с самой высокой погрешностью, но без него не обойтись.

Финальным штрихом стал веб-интерфейс с подсветкой выделенных сущностей и API-выгрузка в JSON/XML. Так клиент получил удобный инструмент для контроля и интеграции.

Какие получили результаты

Точность модели по извлекаемым сущностям составила до 90%, и при дообучении этот показатель можно превысить.

Время обработки одного документа сократилось до 30 секунд — до внедрения оператор тратил на это 5–10 минут.

Мы устранили до 80% типичных ошибок ввода, особенно по числовым и реквизитным данным. Загрузка операторов снизилась, особенно во второй половине дня, когда раньше концентрация падала сильнее всего. Кроме того, повысилась прозрачность и контроль юридических рисков.

Где ещё применимо такое решение

По нашему опыту, подобный подход востребован во многих сферах. В банках — для обработки заявлений, договоров кредитования, анкет. В страховых компаниях — для автоматического извлечения данных из полисов и заявлений. Юридическим фирмам он поможет парсить типовые и нетиповые договоры, доверенности. Фонды и инвестиционные компании могут автоматизировать регистрацию документов ПИФов и доверительного управления. Государственные структуры — наладить потоковую обработку архивов юридически значимых документов. А для компаний с электронным документооборотом и архивами сканов это способ превратить PDF-архивы в структурированные данные для поиска и контроля.

Вместо заключения

Этот кейс — пример того, как автоматизация на базе нейросетей решает не просто техническую задачу, а снижает реальные бизнес-риски: штрафы, суды, репутационные потери. Если перед вами стоит похожий вызов — будем рады обсудить.