В предыдущей статье я начала раскрывать тему NLP. Зачем компьютеры обучают понимать человеческий язык? Что из этого выйдет? Очень надеюсь, что вам будет интересно, подписывайтесь на мой канал, а перед прочтением советую ознакомиться с предыдущей статьей!
Электронное обнаружение
Электронное обнаружение представляет собой процесс идентификации и сбора хранящейся в электронном виде информации в ответ на запрос в рамках судебного процесса или расследования. На обычном жестком диске могут находиться сотни тысяч вариантов и ключевым моментом здесь является разделение этого содержимого на релевантное (или "отзывчивое", в терминологии домена) и несущественное.
В деле, касающемся недавнего патентного спора с компанией Apple, Samsung собрала и обработала около 3,6 ТБ, или 11 108 653 документов; стоимость обработки этих доказательств за 20 месяцев, как утверждалось, превысила 13 миллионов долларов США.
Сейчас борьба на рынке ведется вокруг оптимизированных методов классификации документов по степени их актуальности и скоростной эффективности. Этот процесс называется "анализ с помощью технологий" и в течение ряда лет был основным направлением деятельности в рамках правового развития.
Как и в случае юридических исследований, традиционные подходы включали поиск по ключевым словам или логическому поиску, за которым следовал анализ вручную. В современности, для классификации документов используется машинное обучение, называемое в юридической профессии "прогностическим кодированием".
В юридическом сообществе ведутся споры о плюсах и минусах различных методов, в частности о том, что считается разумным набором исходных данных и является ли пассивное или активное обучение более эффективным. Первое предполагает выборочный отбор документов для мечения человека, а второе предполагает преднамеренный выбор машины для получения неопределенных или, наоборот, предполагаемых релевантных результатов.
Новейшая технология, получившая название Smart Labelling, избавляет пользователей от необходимости осуществлять начальные сборы и маркировки документов, отбирая для просмотра наиболее важные документы с самого начала процесса рецензирования. DISCO имеет аналогичное решение, основанное на глубоком обучении. Everlaw, с другой стороны, все еще использует подход, при котором начальный комплект (они предполагают 200 документов) должен быть промаркирован.
OpenText представила платформу электронного обнаружения под названием Axcelerate, а SDL, известная своими переводческими продуктами и услугами, предоставила многоязычное решение eDiscovery Solution, обеспечивающее доступ к материалам на иностранных языках посредством перевода.
Проверка контрактов
Обычно юристы проверяют контракты, вносят комментарии и изменения, а также консультируют своих клиентов по вопросам подписания или заключения договоров на более выгодных условиях. Контракты могут быть относительно простыми, например, о неразглашении информации, или очень крупными и сложными, растянутыми на многие сотни страниц.
Автоматизированные системы анализа контрактов могут использоваться для анализа документов, которые относительно стандартизированы и предсказуемы с точки зрения содержащегося в них контента. Процесс включает разложение договора на отдельные положения и последующую оценку каждого из них либо для получения ключевой информации, либо для сравнения с некоторыми стандартами (которые могут быть лишь набором других примеров таких контрактов, заключенных компанией-поставщиком услуг).
Так, например, система обзора контрактов может указать на отсутствие положения, касающегося взяточничества, или на то, что в положении, касающемся повышения цен, не указан процентный предел. Обзор договора может быть на уровне отдельного договора, или, скажем, в случае комплексной проверки корпоративного приобретения, он может включать проверку тысяч контрактов в целом. В последнем случае технология начинает также включать аспекты так называемой правовой аналитики, агрегируя информацию по всему набору данных для выявления аномалий и отклонений и составляя диаграммы или таблицы, которые облегчают сопоставление документов.
Обзор контрактов вызвал значительный интерес в последние несколько лет. Раньше для извлечения информации использовались ключевые термины и заголовки, и вполне вероятно, что многие сайты все еще используют такие технологии. Но, неудивительно, что практически все новые сервисы используют более сложные методы машинного обучения.
Три крупнейших игрока - это Kira Systems, Seal Software и LawGeex.
- Компания Kira предлагает готовые модели примерно для 500 общих положений, охватывающих целый ряд типов контрактов; вы указываете, какие из них имеют отношение к рассматриваемому контракту, а также можете создавать индивидуальные модели для условий, которые еще не были в нем учтены.
- LawGeex подчеркивает возможность сравнения контрактов с предварительно разработанными политиками компании. Типичная стратегия для начинающих компаний, похоже, заключается в том, чтобы сфокусироваться на достаточно специфических типах документов, таких как контракт о неразглашении информации, договоры аренды недвижимости и политики конфиденциальности, а затем расширить спектр документов, обрабатываемых по мере роста числа клиентов и привлечения новых клиентов.
- Leverton фокусируется в основном на документах по недвижимости. Ориентируясь на компании с большим портфелем недвижимости, она обрабатывает контракты на 20 языках.
Неудивительно, что компании, занимающиеся анализом текста, также привлекаются к этому: ABBYY Text Analytics, Ayfie Contract Analysis, и OpenText Perceptiv.
Как ContractProbe, так и PrivacyProbe имеют онлайн-демографии, которые позволяют загружать документы для ознакомления. Они намного примитивнее, чем продукты, рассмотренные выше, но они дают начальное представление о том, что могут сделать приложения по проверке контрактов.
Следующую и последнюю статью из данного цикла можно прочитать здесь