MAREN: AI-автоматизация и автопостинг 24/7 | Марина Погодина

549 подписчиков

Создание RAG-агента для анализа юридических документов

31 октября31 окт

18 мин

Разбираемся, как создать агента для автоматического анализа документов Если коротко, мы соберем RAG-агента, который понимает юридические документы, вытаскивает нужные куски текста и объясняет, на что смотреть. Я покажу, как соединить извлечение, индексацию, эмбеддинги, генерацию и проверки, чтобы вопросы анализа документа звучали по делу, а ответы опирались на источник. Мой фокус — процессы и прозрачность: что хранить, где считать, как логировать, чтобы результаты анализа документов были воспроизводимыми и годились для аудита. Это актуально, потому что объем правовой информации растет, а требования к скорости — тоже; доверять «голой» генерации рискованно, а ручной анализ документов сложен и медленный. Статья для тех, кто автоматизирует на n8n и Make.com, пишет своих ИИ-агентов и хочет, чтобы система работала в white-data-зоне, учитывала 152-ФЗ и не превращалась в очередную черную коробку. Время чтения: ~16 минут Каждый раз, когда ко мне прилетает пачка сканов устава, договоров и внутре

Оглавление

Как это выглядит в жизни
Зачем юристу RAG-агент и что он умеет
Архитектура без мистики

Разбираемся, как создать агента для автоматического анализа документов

Если коротко, мы соберем RAG-агента, который понимает юридические документы, вытаскивает нужные куски текста и объясняет, на что смотреть. Я покажу, как соединить извлечение, индексацию, эмбеддинги, генерацию и проверки, чтобы вопросы анализа документа звучали по делу, а ответы опирались на источник. Мой фокус — процессы и прозрачность: что хранить, где считать, как логировать, чтобы результаты анализа документов были воспроизводимыми и годились для аудита. Это актуально, потому что объем правовой информации растет, а требования к скорости — тоже; доверять «голой» генерации рискованно, а ручной анализ документов сложен и медленный. Статья для тех, кто автоматизирует на n8n и Make.com, пишет своих ИИ-агентов и хочет, чтобы система работала в white-data-зоне, учитывала 152-ФЗ и не превращалась в очередную черную коробку.

Время чтения: ~16 минут

Как это выглядит в жизни
Зачем юристу RAG-агент и что он умеет
Архитектура без мистики
Данные и юридические источники: что грузим и как
Извлечение, индексация, эмбеддинги
Промпты, логика и вопросы анализа
Качество и измерения результата
Риски, ограничения и white-data подход
Практические шаги: от черновика к продакшену

Как это выглядит в жизни

Каждый раз, когда ко мне прилетает пачка сканов устава, договоров и внутренних положений, я мысленно считаю часы. Раньше было так: ручной анализ документов, пометки в полях, табличка с рисками, запросы уточнений и еще одна итерация — в общем, нудно и дорого по времени. Сейчас я сначала прогоняю пакет через RAG-агента, который вытягивает ключевые нормы, находит пересечения с актуальными требованиями и предлагает сопоставление — а уже потом открываю документ глазами, чтобы подтвердить выводы и поправить нюансы. Нет, магии нет, и ошибок он не лишен; но он экономит мне несколько итераций механики и помогает быстрее сформулировать вопросы анализа документа к контрагенту или внутренней команде. Я ценю не только скорость, но и обоснованность: агент всегда прикладывает цитату и ссылку на страницу, так что споров «откуда взялось» почти не остается.

Один раз агент поймал несоответствие между учредительными документами юридического лица и их отражением в договоре — в уставе полномочия прописаны узко, а в договоре доверенность «как бы расширяет» права подписи. Я бы заметила, но позже, а тут ошибка всплыла сразу, с аккуратным сравнением формулировок. Я записала в логи, поправила промпт и добавила новую проверку в пайплайн — просто потому, что такие кейсы повторяются. И да, кофе в этот момент как раз остыл, но сэкономленные два часа на сверке я забрала себе. Так рождается метод анализа документов, в котором машина делает черновую рутину, а человек обеспечивает интерпретацию, контекст и финальное решение. Если коротко, я за честные метрики, прозрачные шаги и аккуратную автоматизацию, которая не ломает процессы, а помогает им стать быстрее и чище.

В юридической рутине выигрывает не самый умный алгоритм, а самый объяснимый и воспроизводимый процесс.

Зачем юристу RAG-агент и что он умеет

RAG — это Retrieval-Augmented Generation, то есть генерация с опорой на извлечение, и в правовой практике она звучит особенно здраво. Юридические документы любят точность, а значит, любая гипотеза должна упираться в конкретную норму, страницу и строку, поэтому голая генерация часто делает вид, что уверена, и ошибается. Когда мы добавляем слой извлечения, агент сначала находит релевантные фрагменты в базе, а уже потом формирует ответ, ссылаясь на куски из исходных материалов, и так снижается риск неприятной «галлюцинации». На практике это ускоряет проведение анализа документов: сначала сбор фактов, потом формулировка выводов, а не наоборот. Для юриста важны доказуемость и разборчивость — агент показывает, откуда пришел контекст, какие документы юридического лица были просмотрены, какие версии актуальны на дату, и почему ответ сформулирован именно так.

Какую пользу дает такой подход в повседневной работе, когда речь идет о договорах, уставах, политиках и положениях. Во-первых, систематизация: агент ведет единый каталог видов юридических документов, хранит связи между версиями и файлами, а значит, поиск становится скучной, но быстрой операцией. Во-вторых, масштаб: анализ нормативных документов в объемах сотен страниц уже не пугает, потому что нарезка на фрагменты срабатывает одинаково, даже если текст написан «по-старому». В-третьих, наблюдаемость: мы оцениваем результаты анализа документов метриками, а не ощущениями, и знаем, где тонко, где недоизвлечение, где промпт просит доработки. Это не отменяет роли эксперта — наоборот, эксперт получает чистую площадку для интерпретации и принятия решения. А я люблю, когда решения приводимы к шагам, и каждый шаг можно пересчитать.

Если коротко про ценность: RAG-агент не заменяет юриста, он снимает поверхность — поиск, выемку, первичное сопоставление — и дает точки опоры для вывода. Экономия часов приходит из повторяемости.

Архитектура без мистики

Я строю таких агентов как набор понятных узлов: хранение, извлечение, нормализация, генерация, объяснение, аудит. Хранилище — это документы юридического лица и связанные материалы, векторное представление фрагментов и метаданные о версиях, датах, типах. Извлечение — поиск релевантных кусков по запросу или по заранее задуманным шаблонам проверки, где каждое требование превращается в цельный запрос к базе. Нормализация — приведение текста к единообразному виду: снятие служебных символов, сохранение структурных маркеров, выделение заголовков — иначе на длинных актах модель теряет контекст. Генерация — аккуратное формирование ответа или табличного вывода, где каждое утверждение ссылается на исходный фрагмент, а не прыгает по домыслам. Объяснение — откуда взялись эти фрагменты, почему именно они прошли фильтр и какой метод анализа документов применен. Аудит — запись хода рассуждений и причин, чтобы через неделю можно было воспроизвести и проверить.

С точки зрения инструментов это обычно связка n8n или Make.com как оркестратор, векторное хранилище вроде Qdrant или Milvus, парсер для PDF и сканов, модуль для эмбеддингов и языковая модель для ответов. Почему оркестратор — потому что мне важна прозрачность шагов: любой провал или «не добил» ловится в логах узла, и я быстро понимаю, где сломалось. Почему векторное — потому что классическое ключевое слово часто не попадает в юридические перефразировки, а семантический поиск ловит смысловые парафразы. Почему отдельный модуль объяснения — потому что юристу важны вопросы анализа документа, а значит, сама структура ответа должна быть «отчетной»: что проверено, какими источниками, где нашли подтверждение. Все это прекрасно собирать на российских инфраструктурах и в приватном контуре, чтобы соответствовать 152-ФЗ и не рисковать данными. А я работаю только так — белая зона и контроль процессов.

Архитектура — это не про набор модных слов, это про цепочку ответственности: каждый узел знает, за что он отвечает, и пишет в журнал, что сделал.

Данные и юридические источники: что грузим и как

Чтобы агент уверенно чувствовал себя в правовом поле, ему нужен аккуратный корпус. В него входят учредительные документы юридического лица, договоры, локальные нормативные акты, регламенты, протоколы, а еще — внешние нормативные документы и справочные материалы. Из практики я предпочитаю хранить в хранилище и первичный файл, и нормализованный текст, и маленькие фрагменты после нарезки, чтобы и человек, и машина могли работать на своем уровне. При загрузке важно отделять версии и ставить метки времени — юридический документ любит актуальность, поэтому «что действует на дату» должно быть видно в одну секунду, а отбор фрагментов — учитывать эти метки в поиске. Важно и качество оцифровки: OCR не должен съедать артикли, номера пунктов и ссылки, а иначе мы теряем цитируемость, и проверка превращается в догадки.

Где взять внешнюю базу норм — зависит от ваших возможностей и доступа к легальным источникам: публичные реестры, открытые правовые порталы, корпоративные подписки с API. Здесь два принципа: законность и актуальность, никакой серой зоны и случайных выгрузок откуда-то. Я сторонница белого подхода: интеграции, которые позволяют обновлять данные по расписанию, хранить журналы обновлений и фиксировать версии, чтобы исследование анализ документа было подтверждаемым и проверяемым. Если проект чувствителен к персональным данным, мы оставляем PII за контуром или анонимизируем — бывают ситуации, когда лучше подменить значения, чем дать модели лишнюю информацию. И да, проверка источника — обязательна: иногда «удобная таблица» с требованиями оказывается чьей-то заметкой, а не нормой права, и тогда агент будет честно ссылаться на не тот документ.

Короткий чеклист качества корпуса
1) Уникальные идентификаторы документов и версий. 2) Нормализация текста и сохранение структуры. 3) Метаданные: тип, дата, статус, юрисдикция. 4) Регулярное обновление и журналы изменений. 5) Отдельный реестр внешних источников с уровнями доверия.

Извлечение, индексация, эмбеддинги

Вся магия RAG живет в том, как мы режем и ищем. Индексация — это про фрагментацию текста на куски, к которым модель потом может обратиться; слишком длинно — выпадет контекст, слишком коротко — потеряем смысловые связи, так что я подбираю размер по типу документа. Для договоров хорошо заходят блоки по пунктам и подпунктам, для законов — по статьям и частям, для политик — по главам с перекрытием контекста, чтобы фрагменты знали о соседях. Эмбеддинги превращают куски в вектора и позволяют искать по смыслу, а не по букве; тут важно выбрать модель, которая понимает юридический язык, иначе термин «расторжение по соглашению» поедет в сторону. Я тестирую на контрольных наборах запросов, где ожидаемый ответ известен, и смотрю на извлечение до генерации — если поиск привез мусор, дальше уже поздно.

Есть полезные трюки для извлечения, которые экономят время и уменьшают шум. Во-первых, гибридный поиск — комбинировать BM25 по ключевым словам и семантический поиск по эмбеддингам, а потом слияние результатов с учетом метаданных. Во-вторых, фильтры по датам и типам документов — анализ нормативных документов на дату без этой фильтрации бессмысленен, и агент должен уметь отсекать лишнее. В-третьих, переформулировка запроса — иногда стоит прогнать вопрос через перефразирование, чтобы расширить синонимы, но не расползтись по темам. И еще — ограничение по источникам: когда я проверяю учредительные документы юридического лица, то не беру войну с внешними актами, пока не сверю внутренние формулировки, иначе модель перепутает уровень нормы. Так и держим порядок: сначала точный контекст, потом расширение.

Хорошее извлечение делает генерацию скучной и предсказуемой — и это лучший комплимент для инженерии.

Промпты, логика и вопросы анализа

Генерация — инструмент для аккуратной формулировки, а не для догадок, поэтому промпт у меня всегда объяснимый и с ролевой инструкцией. Я задаю тон: юрист-помощник, который цитирует и не выдумывает, а за неверифицируемые утверждения извиняется и предлагает дополнительные уточнения. Вопросы анализа документа формулирую так, чтобы можно было положить ответ на стол руководителю — без уклончивых фраз и с прямым указанием на пункты, страницы, версии. На уровне логики люблю явные чек-листы требований: агент идет по пунктам, сверяет, и для каждого правила дает статус, выдержку и краткий комментарий. Стиль изложения — деловой, но человеческий: перечислять, не пугать, указывать риски и переменные, которые надо уточнить. В конце — резюме для человека и ссылка на логи, чтобы пройтись и убедиться, что все сошлось.

Чтобы избежать переспама и странных повторов, я добавляю в промпт дисциплину: запрещаю перефразировать цитаты, но прошу их пояснять своими словами после. Если агент не нашел фрагмент, он пишет об этом честно и не подменяет ссылку «похожей». Отдельный блок — структурированные ответы: таблица со столбцами «Требование — Фрагмент — Статус — Ссылка — Комментарий» экономит мою проверку в два раза быстрее, чем длинный текст. И да, бывают места, где лучше оставить вопрос человеку — например, в оценке коммерческой целесообразности или трактовке спорных норм, и агент должен это признавать. Иногда я ловлю себя на желании добавить десять еще правил, но нет, лучше так: меньше, но проверенных проверок, и потом расширять.

Три полезные заготовки
— Ролевая инструкция: «Ты юридический помощник, цитируй и указывай страницу, не придумывай».
— Структура ответа: «Таблица с требованиями и ссылками на фрагменты».
— Стратегия отказа: «Если нет цитаты — объясни, чего не хватило, и какие документы нужно загрузить».

Качество и измерения результата

Без метрик разговор о качестве превращается в веру, а я так не работаю. Для RAG-агента выделяю три группы измерений: извлечение, генерация, польза. На уровне извлечения смотрю, насколько часто среди топ-k фрагментов появляется «золотой» ответ из контрольного набора, и считаю долю релевантных кусков относительно всей выдачи. На уровне генерации оцениваю точность ссылок, полноту ответа по чек-листу, и самую важную вещь — цитируемость, то есть сколько процентов утверждений сопровождено источником. На уровне пользы считаю экономию времени на проведении анализа документов: сколько минут уходит на проверку досье, сколько итераций переписки снимается, где падают ошибки в сопоставлении версий. Результаты анализа документов сравниваю между релизами агента: когда меняю нарезку или эмбеддинги, делаю A/B на контрольном наборе.

Отдельная тема — обратная связь от юристов, которые пользуются системой. Мы собираем «сигналы несогласия»: где агент промолчал, где переоценил, где предложил лишнее, и превращаем их в новые тесты и правила. Если честно, это не всегда приятно, потому что вылезают мелкие огрехи, но именно они и дают рост качества. Я фиксирую стандарты на уровне процесса: отчет должен иметь идентификатор, ссылку на лог, версию корпуса и версии моделей, чтобы через три месяца можно было пройти по цепочке и воспроизвести. Это скучная, но важная часть — в правовом поле без воспроизводимости нет доверия. И да, бывает, что метрика на синтетических примерах красивая, а на реале проседает; тогда добавляю новые кейсы и кручу параметры, пока графики не перестанут врать.

Метрики — это зеркало процесса, а не украшение презентации. Если в зеркале некрасиво — поправьте процесс.

Риски, ограничения и white-data подход

Юридические задачи не терпят серых зон, поэтому я сразу проговариваю ограничения. Агент не заменяет юридического заключения, он ускоряет анализ и подставляет источники, а финальную трактовку делает человек, который понимает контекст бизнеса и риски. Вопрос законности данных — первый по списку: персональные данные и коммерческая тайна живут в приватном контуре, доступ разграничен, логи обезличены, а все интеграции соответствуют 152-ФЗ. Источники — только легальные, с допустимыми лицензиями, и с журналами обновлений, чтобы отслеживать, когда какая версия вступила в силу. Есть и технические риски: OCR может ошибаться, эмбеддинги — путать близкие термины, а генерация — вежливо уверять в несомненности там, где надо сомневаться.

Я отношусь к этому прагматично: риск менеджмент встраивается в код. В оркестраторе добавляю ветку отказа и ручную проверку, где уверенность ниже порога; в отчет включаю раздел «что не покрыто»; на уровне процессов закрепляю ответственность за публикацию результатов. Бывают вопросы про создание gpt агента в лоб, где хочется взять готовый шаблон и побежать, но для анализа юридических документов шаблон лучше держать под контролем — свои эмбеддинги, свои индексы, свои правила. Платформа для создания агентов — это не только про удобство, но и про управляемость: версии, аудит, политика хранения. И да, лучше один лишний стопор, чем красивая ошибка в отчете, которую потом будет неловко объяснять.

White-data для меня — это не лозунг, а практика: минимум внешних зависимостей, приоритизация российских облаков и сервисов, прозрачность логов и легальные источники. Спокойнее спится.

Практические шаги: от черновика к продакшену

Чтобы перейти от идеи к работающему агенту, я делю путь на короткие прозрачные этапы. Сначала ставлю цель: для каких видов юридических документов нужен анализ, какие вопросы приоритетны, какие результаты считать успехом. Затем собираю минимальный корпус: 20-30 документов, где есть и «простые», и «угловатые» тексты, чтобы тесты были честными. На третьем шаге разворачиваю векторное хранилище и базовую индексацию, задаю размер фрагментов, подключаю эмбеддинги, делаю первые запросы и смотрю на выдачу без генерации. Четвертый шаг — промпты и формат ответа: таблица требований, цитаты, ссылки; настраиваю пару-тройку проверок, например, полномочия подписанта, сроки, порядок расторжения. Пятый — автоматизация в n8n/Make.com: загрузка файлов, нарезка, индексация, поиск, генерация, сохранение отчета и логов, уведомление.

Есть короткий план, который неплохо работает, когда времени мало, а нужно показать движение. Шаг 1 — карточка процесса с ролями, входами и выходами, плюс чек-лист требований. Шаг 2 — минимальный прототип извлечения и контрольный набор вопросов, где известны ответы. Шаг 3 — первый отчет с цитатами и ссылками, обсуждение с юристом и правки. Шаг 4 — метрики и пороги качества, журналы, версии корпусов. Шаг 5 — пилот на реальном кейсе, итерация до стабильной скорости и качества. В этот момент агент уже экономит часы, а вы понимаете, в какую сторону растить возможности — добавлять проверки, расширять источники, обучать на отраслевой специфике. Если хотите посмотреть на примеры интеграций и схемы узлов, у меня есть заметки в блоге, и часть схем я периодически выкладываю на сайте MAREN — стараюсь показывать без мишуры, как собираю на практике.

Секрет устойчивости — в простых итерациях и честной обратной связи. Прототип — проверка — правка — снова проверка.

Где искать дополнительные материалы
Я делюсь наблюдениями про n8n, Make.com, создание ИИ-агентов и нестандартные RAG-решения в рабочих заметках — их удобно читать короткими дозами в моем канале про автоматизацию. Там же обсуждаем кейсы и грабли, чтобы другие не наступали.

Тихая развязка и что я забираю с собой

Когда агент становится невидимым, процесс начинает плыть быстрее — и это лучший комплимент для инженерии. Юридические документы, особенно учредительные документы юридического лица и сложные договоры, перестают быть «черным ящиком», потому что у нас есть след из ссылок, версии и ясная структура ответа. RAG дисциплинирует команду: мы обозначаем границы и роли, где машина делает извлечение и формулирует черновик, а человек принимает решение и несет ответственность. Это про зрелость процессов: замеряем, ведем журналы, не боимся признать пробел и улучшить систему. Мне нравится, что агент учит нас задавать правильные вопросы и не уставать от повторов — то, что высвобождает голову для сложных задач. И, как всегда, внимание к деталям — нарезка, метаданные, промпты — дает результат, на который приятно смотреть даже через месяц после релиза.

Если вы однажды поймаете себя на мысли, что проверка подписи, срока и порядка расторжения стала слишком простой, значит, вы все сделали правильно. Пускай машина тянет рутину, а мы оставим себе работу, где нужен опыт, интуиция и знание контекста. Я верю в инструменты, которые помогают возвращать время, а не отнимать его, и в процессы, которые можно объяснить и пересчитать. Пусть так и будет — спокойно, прозрачно и без лишней магии.

Спокойное приглашение к практике

Если хочется уложить подход к RAG в свою реальность и собрать аккуратную цепочку под ваши юридические документы, можно заглянуть в мои открытые материалы — там схемы узлов, подсказки по метрикам и разборы типовых узлов для n8n и Make.com. Для тех, кто готов перейти от теории к настройкам, у меня есть рабочие конспекты и примеры на сайте MAREN, а короткие заметки и разбираемые кейсы удобно читать в канале про автоматизацию. Я пишу без хайпа и с цифрами, иногда прямо из-под свежей правки пайплайна — на практике это ценнее любых презентаций.

Частые вопросы по этой теме

Можно ли использовать RAG-агента как замену юридического заключения

Нет, это инструмент ускорения и систематизации, а финальную интерпретацию делает юрист. Агент хорош в извлечении и сопоставлении, но ответственность за выводы остается у человека.

Какие юридические документы лучше всего подходят для первого пилота

Возьмите 2-3 типа: договоры поставки/услуги, устав и доверенности. Такой набор позволяет проверить полномочия, сроки, порядок расторжения и соответствие формулировок — базовые сценарии для проверки.

Как обеспечить соответствие требованиям 152-ФЗ

Данные храните в приватном контуре, разграничивайте доступ, логируйте операции, а персональные данные минимизируйте или анонимизируйте. Используйте легальные источники и фиксируйте версии материалов.

Какие метрики использовать для оценки качества

Смотрите на извлечение (релевантность топ-k), генерацию (цитируемость и точность ссылок), а также на экономию времени и число уточняющих итераций. Регулярно сравнивайте релизы на одном и том же контрольном наборе.

Подойдут ли n8n и Make.com для продакшена

Да, для оркестрации это удобные платформы, если правильно настроить логи, очереди и контроль ошибок. Критичные узлы — хранение, индексация, генерация — лучше держать под наблюдением и версиями.

Нужно ли обучать модель на собственных юридических текстах

Желательно, особенно для терминологии и формулировок вашей отрасли. Даже частичный дообученный слой эмбеддингов повышает качество извлечения и уменьшает шум в ответах.

Что делать, если документы в сканах плохого качества

Используйте надежный OCR, сохраняйте структуру и номера пунктов, а сомнительные области помечайте для ручной верификации. Плохая оцифровка — частая причина ошибок, ее лучше лечить на входе.