Найти в Дзене
Пенсионер

Мили: Использование искусственного интеллекта в E-Discovery

Оглавление

Искусственный интеллект (ИИ) не является новой концепцией: этот термин получил широкое распространение еще в 1955 году, когда ученый-компьютерщик (и отец-основатель ИИ) Джон Маккарти придумал его в рамках своих усилий по консолидации мышления и новых идей вокруг. «мыслящие машины». В следующем году Маккарти и другие организовали Дартмутский летний исследовательский проект по искусственному интеллекту, который сейчас считается основополагающим событием в области искусственного интеллекта.1

С тех пор было несколько весен и зим AI, периоды быстрого прогресса сменялись циклами сокращения финансирования и интереса. Однако сейчас эксперты сходятся во мнении, что эпоха «циклов ажиотажа» в области искусственного интеллекта, возможно, закончилась, поскольку мы переходим во всем мире в так называемую эпоху искусственного интеллекта, к необратимой интеграции технологий искусственного интеллекта в повседневную жизнь и во все большем числе секторов экономики. Эта новая эра во многом была обусловлена ​​выпуском генеративных моделей искусственного интеллекта, моделей глубокого обучения, которые могут – с разной степенью успеха – воспроизводить уровни рассуждения, креативности и интеллекта, связанные с человеческим познанием и способностями, на основе данных, которые они использовали. Тренировался.

Роль технологий и искусственного интеллекта в обнаружении электронных данных

ИИ, безусловно, способен полностью преобразовать юридическую отрасль, особенно когда дело касается мира электронных документов. Электронное раскрытие относится к процессу идентификации, сбора и предоставления данных в судебных или других судебных разбирательствах, где требуется информация, хранимая в электронном виде (ESI). ESI — это любые данные, которые хранятся или передаются в электронном виде — не только электронные письма и документы, но и цифровой контент, такой как аудиофайлы, изображения, видео, содержимое веб-сайтов, мгновенные сообщения и т. д.

Технология искусственного интеллекта уже давно используется на различных этапах процесса обнаружения электронных данных для ускорения и упрощения поставленной задачи. Эксперты используют прогнозирующее кодирование или анализ с использованием технологий (TAR), который – в своей первоначальной итерации – использует машинное обучение для прогнозирования того, какие документы могут содержать релевантный контент, на основе исходного «исходного набора» закодированных вручную или «помеченных» документов, введенных человек-рецензент. Компьютер, на котором работает программное обеспечение TAR, на основе начального набора учится прогнозировать, как следует помечать новые документы. Этот метод в значительной степени полагается на первоначальный ввод полных и точных наборов данных — качество результатов, генерируемых компьютером, отражает качество входных данных.

Однако следующее поколение TAR использует непрерывное активное обучение (CAL) или TAR 2.0, как его обычно называют. При использовании рабочего процесса CAL нет необходимости проверять исходный набор документов, как в традиционной модели TAR. Вместо этого компьютер способен учиться в режиме реального времени, когда рецензенты-люди начинают кодировать документы. Затем рабочий процесс CAL перемещает документы, которые, по его мнению, являются наиболее релевантными, в начало очереди на проверку. Это означает, что документы, которые, вероятно, будут иметь наибольшую релевантность, будут видны проверяющим раньше. Компьютер постоянно улучшает понимание набора данных, интегрируя и изучая информацию по мере того, как группа проверки кодирует документы. Эта технология особенно полезна в случаях с большими наборами данных и сжатыми сроками.

ТАР и суды

В соответствии с новыми правилами раскрытия информации в Великобритании, которые стали постоянным направлением практики в сентябре 2022 года, подчеркивается важность TAR в процессе раскрытия электронных данных, и правила показывают общее признание этой технологии судами 2. Однако TAR был впервые одобрен для использования более десяти лет назад, в 2012 году, в судах США, постановлением по делу Да Силва Мур против Publicis Groupe и MSL Group3. В постановлении ныне отставной мировой судья Нью-Йорка Эндрю Дж. Пек высказал мнение, одобряющее использование TAR как «приемлемого способа поиска соответствующего ESI в соответствующих случаях», учитывая чрезвычайно положительное влияние на скорость рассмотрения, результаты работы и процесс. Прозрачность.

Три года спустя судья Пек повторил свое судебное мнение о принятии судом TAR в деле Rio Tinto PLC против Vale SA, в котором он заявил, что «за три года, прошедшие после Да Силвы Мура, прецедентное право развилось до такой степени, что теперь оно стало черным». буквенный закон, согласно которому, если производящая сторона хочет использовать TAR для проверки документов, суды разрешают это»4

В том же 2015 году высокие суды Ирландии также впервые одобрили использование TAR (Irish Bank Solution Corporation Ltd. против Quinn5), за которым в 2016 году последовали британские суды, которые признали использование TAR в деле Pyrrho Investments Ltd. против MWB Property Ltd.6 в постановлении, в котором подчеркивалась повышенная эффективность TAR и первостепенная цель рассмотрения дел «справедливо и с пропорциональными затратами», как это предусмотрено Правилами гражданского судопроизводства (CPR)7.

Сегодня TAR общепринят, и споры относительно TAR теперь сосредоточены на прозрачности подхода или на том, как он проводится, а не на вопросе о том, следует ли его вообще использовать в процессе открытия.

Хотя TAR не может полностью заменить людей в процессе открытия, неустанное развитие дизайна и возможностей программного обеспечения делает его жизненно важным инструментом для юристов, работающих со все более большими наборами данных в эпоху цифровых технологий. Тем не менее, чтобы TAR был эффективным, ключом к успеху является наличие опытного эксперта по обнаружению электронных данных во главе алгоритма.

Генеративный искусственный интеллект и электронное обнаружение

Генеративный ИИ (GenAI) описывает алгоритмы, которые работают путем анализа обширных и часто сложных наборов данных для создания серии структур и шаблонов, из которых модель может генерировать новый контент — будь то текст, изображения или другие данные — в качестве выходных данных. , часто как ответ на набор конкретных подсказок.

В процессе электронного обнаружения модели GenAI используют предварительно обученные модели большого языка (LLM) в качестве эталонной структуры для выполнения элементов обнаружения, включая идентификацию и проверку документов. В отличие от TAR, который требует от экспертов значительных затрат времени и средств для обучения модели, GenAI способен предоставлять точные результаты «из коробки», что приводит к значительной экономии времени экспертов по открытиям.

GenAI обладает гораздо более широкими возможностями, чем TAR, что позволяет ему выполнять ряд задач, выходящих за рамки классификации и сортировки документов. Например, GenAI может выполнять концептуальный поиск, позволяя экспертам-исследователям использовать эту технологию для поиска фактов, вставив подсказку в систему. Модель GenAI использует технологию LLM для быстрого ответа на вопрос, используя ответы на естественном языке, ссылки и примеры документов. Более того, возможности GenAI по обработке естественного языка также означают, что он может выполнять этот поиск и анализировать настроения на нескольких языках одновременно.

GenAI также значительно более гибок, чем TAR, и может предоставлять индивидуальные решения для конкретных случаев использования с точки зрения работы системы или ее интеграции в процессы обнаружения электронных данных. Эта расширенная функциональность интеграции означает, что модели GenAI часто предлагают более целостное решение, работая вместе с другими технологиями искусственного интеллекта и инструментами/платформами данных для повышения качества результатов.

Однако из-за деликатного характера работы по раскрытию электронных данных крайне маловероятно, что данные когда-либо будут использованы для создания LLM – в немалой степени из-за проблем, связанных с конфиденциальностью.

Таким образом, системы искусственного интеллекта, по крайней мере на данный момент, не могут «обучаться» или совершенствоваться — производительность системы фактически плоская, и ее легко можно обогнать адаптивными / обучающимися технологиями.

Тем не менее, мы увидим дополнительные преимущества, когда будут преодолены проблемы совместимости и различные формы ИИ (например, TAR/CAL/GenAI) начнут работать вместе для достижения более высоких результатов – хотя этому интегрированному подходу еще далеко до того, чтобы стать реальностью.

Риски

Большая гибкость и возможности GenAI, без сомнения, делают эту технологию огромной добавленной стоимостью в процессе обнаружения электронных данных, особенно в сложных случаях и тех, которые включают огромные объемы разнообразных данных. Тем не менее, эта потенциальная выгода также сопряжена с потенциальным риском.

Несмотря на огромный прогресс в технологии за последние годы, модели GenAI по-прежнему могут – и часто делают – допускать ошибки, особенно при работе со сложными документами. Также известно, что GenAI галлюцинирует — уверенно выдумывает контент и представляет его как факт. Эти галлюцинации часто вызваны ошибками во входном наборе данных; будь то неточные данные, предвзятость данных или просто данные слишком ограничены по объему или охвату. Если системе GenAI не хватает данных для ответа на запрос, она часто «закрывает пробелы» и выдает то, что считает наиболее вероятным ответом, на основе своих обучающих данных.

Однако возникают проблемы, когда этот ответ представляется истинным, хотя на самом деле он неверен. Пример того, как GenAI создавал фиктивные результаты, уже был рассмотрен в судах: шесть дел, представленных адвокатами истца в деле о телесных повреждениях против оператора авиакомпании в 2023 году, оказались «фиктивными», что, как позже признала юридическая группа, было созданный с помощью обработки естественного языка чат-бота GenAI ChatGPT8. Проблема, похоже, широко распространена: недавнее исследование Стэнфордского университета показало, что галлюцинации ИИ, связанные с законом, «тревожно распространены», возникая примерно в 69% случаев при использовании ChatGPT9.

В более широком смысле, растет давление, требующее торопиться с включением GenAI в бизнес-модели и процессы из-за страха «упустить» или потерять конкурентное преимущество. Любой, кто использует эту технологию, включая экспертов по обнаружению электронных данных, должен действовать здесь с особой осторожностью, поскольку почти наверняка «бум» GenAI, который мы наблюдаем в настоящее время, приведет к увеличению правовых и нормативных проблем. Эти технологии основаны на массивах данных, сложны и не всегда до конца понятны. При разработке и внедрении этих моделей будет важно обеспечить реализацию соответствующих мер безопасности и наличие четкого понимания того, как используются введенные данные, как проводилось обучение, была ли предвзятость и т. д. Модели должны быть подвергнуты судебно-медицинской экспертизе, а результаты должны быть объяснимы судье или суду.

Заключение

ИИ, несомненно, окажет огромное влияние на раскрытие электронных данных и юридическую отрасль в целом и, безусловно, будет способствовать конкурентному преимуществу на рынке. Тем не менее, важно понимать, что любые изменения будут постепенными, и опытные пользователи, понимающие технологию и ее ограничения, увидят наибольшую выгоду. ИИ по-прежнему не является заменой людей – фактически во многих отношениях он делает человеческую работу еще более важной. ИИ — это еще один инструмент в наборе инструментов для обнаружения электронных данных, который необходимо использовать правильно и с правильной целью.