Части 1, 2, 3, 4-1, 4-2, 5, 6, 7, 8, 9,
В процессе подготовки к судебному разбирательству юристы сталкиваются с существенной проблемой, связанной с нечитаемостью элементов документа, таких как слова, предложения и целые участки текста. Нечитаемость текста может привести к серьёзным последствиям в юридической практике, затрудняя понимание и анализ материалов дела. Юристы, стремящиеся к точности и ясности в своих аргументах, могут столкнуться с ситуацией, когда важные детали становятся недоступными из-за плохого качества документации.
Дефекты носителей включают в себя физические повреждения самого носителя (например, бумаги), ухудшение качества копий вследствие многократного сканирования или печати, а также возможны человеческие ошибки при оцифровке и сохранении данных на электронных носителях. Согласно классификации, предложенной Соколовой М.А., такие дефекты относятся к категории дефектов носителя юридического документа.
Многие из указанных дефектов могут быть легко устранены доступными методами. Практически, большинство юристов обладают необходимыми навыками для решения подобных задач в реальном времени. На рисунке 2 представлены различные варианты таких дефектов.
Рис. 2. Примеры дефектов носителей юридической информации.
Все вы понимаете, что разночтения в юридических вопросах могут привести к серьёзным последствиям при формировании позиции в судебном заседании. Представленные на рисунке 2 примеры потери информации относятся к тем случаям, когда возможно, используя логику рассуждений, прийти к определённому выводу, опираясь либо на структуру построения русского языка, либо сопоставив с другими данными, содержащимися в документе, либо сравнив с аналогичным документом.
Иными словами, для этого могут быть использованы инструменты, которые имеются в распоряжении юриста при подготовке к заседанию, и не требуется специальных знаний. Выявление связей между выражениями в тексте, логика рассуждений и сопоставление информации являются ключевыми инструментами юриста для понимания и интерпретации документов.
Когда возникла идея использовать возможности GPT-систем для устранения дефектов носителя, я решил проверить её, изменив одну букву в слове. В этом варианте системы показали себя достаточно эффективно и решил ее реализовать в отдельной публикации. В процессе подготовки публикации я проводил тестирование различных сценариев возникновения ошибок. Выяснилось, что GPT-системы справляются лишь с одним типом ошибки, говоря языком математики — когда расстояние Хэмминга между правильным словом и словом с ошибкой составляет единицу, то есть одного исправления достаточно, чтобы привести в порядок слово. То есть система успешно распознает и исправляет слово, содержащее всего одну ошибку.
Если же ошибка состоит из нескольких букв находящихся в начале или конце слова, то система справляется более-менее успешно. Но если такие ошибки находятся посередине слова, то оно воспринимается системой как два разных слова. При наличии нескольких подобных разрывов внутри одного слова, система видит их как отдельные независимые слова.
Хотя теоретически такая задача имеет решение, на практике оно пока не реализовано в проверенных мной платформах. Подобная проблема возникала, когда по 44-ФЗ, для сокрытия контракта от «посторонних», в требованиях контракта ставили латинские буквы и, поэтому его (контракт) не возможно было найти по поиску. В этом случае проблему удалось решить с помощью программных средств. Этот пример служит иллюстрацией отрицательного результата работы GPT-систем.
Ниже представлены ответы, полученные от самих GPT-систем, когда им задавали вопрос об этой проблеме.
GigaChat – «Они (GPT-системы) учатся на большом количестве текстов, но они(GPT-системы) не всегда могут точно определить ошибку, которая нарушает правила русского языка, особенно если эта ошибка редкая или нестандартная. … Модели могут справляться с простыми ошибками типа опечаток (например, замена одной буквы), но сложные ошибки требуют гораздо большего анализа и интерпретации. Если ошибка радикально изменяет слово, модель может вообще не понять, какое слово должно было быть изначально».
ChatGPT – «GPT не имеет встроенных механизмов для исправления ошибок. Она не распознает слова, которые не соответствуют известным ей формам, и не может "угадывать" слова, которые сильно искажены. … Модели работают на основе вероятностей, и если вероятность распознавания слова с ошибкой слишком низка, модель просто не сможет его идентифицировать».
Вопрос, касающийся применения такого знания, о невозможности определять слова с множеством ошибок, можно рассмотреть через призму практического примера. Одним из таких примеров является ситуация, когда полезно внести дополнительные требования в техническое задание для развёртывания внутреннего (который не зависит от внешних сервисов) мессенджера предприятия. Это требование может быть крайне полезным в контексте обеспечения безопасности и конфиденциальности информации, передаваемой внутри организации.
Предложу примеры промптов для выполнения поиска недостающей информации на элементах рисунка 2. Принцип нумерации следующий – первая цифра – номер документа на рисунке 2, вторая цифра – номер промпта к этому документу.
-- ПРОМПТ 1-1 --
Ты эксперт-лингвист проводящий экспертизу «Исследование текста в целях решения вопросов смыслового понимания».
В ТЕКСТЕ представлен фрагмент договора купли-продажи домовладения от 1990 года. Один из символов этого документа не читаем и обозначен ? (знак вопроса). Определи этот символ и представь в ответе слово в котором он определен.
ТЕКСТ
Договор купли-продажи дома. Поселок (село) с.Ровное КXXXX района КYYYY области. Тысяча девятьсот девяностого года, ноября месяца, 21 числа. Мы нижеподписавшиеся: гр. От совхоза «Большевик» зам.директора Новиков Иван Анисимович житель поселка (села с. ?овное КXXXX района, КYYYY области, с одной сторона и гр.
Ответ 1-1 (GigaChat) - Символ "?" в данном контексте, скорее всего, является первой буквой названия населенного пункта, которое уже упоминалось ранее в тексте – села Ровное. Таким образом, предполагаемое слово будет "Ровное".
Ответ 1-1 (ChatGPT) Судя по контексту, символ «?» в тексте, скорее всего, обозначает пропущенную букву в названии населенного пункта. Учитывая, что в тексте упоминается «с. Ровное», можно предположить, что пропущенная буква — это «Р», и слово, в котором он определен, — «Ровное».
Ответ 1-1 (chatgpt-4o-latest-20241120) На основании контекста текста можно предположить, что символ "?" обозначает первую букву названия населенного пункта "Ровное", указанного в начале документа. Исходя из русской орфографии и логики, наиболее вероятным вариантом является буква **"Р"**, так как в начале документа уже упоминается село "Ровное", и это соответствует общепринятой практике повторения названия населенного пункта в официальных текстах.
Таким образом, слово с восстановленным символом будет выглядеть как: **Ровное**.
Ответ 1-1 (rubble) Символ, обозначенный знаком вопроса (?), вероятно, является буквой "Р", поскольку в контексте договора купли-продажи домовладения упоминается поселок (село) с.Ровное КXXXX района КYYYY области.
Следовательно, слово, в котором определен этот символ, является "Ровное".
-- ПРОМПТ 1-2 --
Представь подробнее цепочку рассуждений и вероятностную оценку предложенного тобой ответа
Ответ 1-2 (GigaChat) - Для определения пропущенной буквы в слове рассмотрим контекст и структуру предложения:
1. Контекст: В документе упоминается поселок (село) с названием "Ровное", а также район и область, к которым оно относится. Важно отметить, что название населенного пункта повторяется дважды в одном абзаце, но второй раз с пропускной буквой.
2. Структура предложения: Фраза начинается с указания места жительства одного из подписантов: "житель поселка (села с. ?овное КXXXX района, КYYYYобласти...". Это предложение логически связано с предыдущими строками, где село Ровное уже было упомянуто полностью.
3. Логика и вероятность: Поскольку первое упоминание населенного пункта в этом же абзаце содержит полное написание "Ровное", есть высокая вероятность того, что при втором упоминании пропущена та же самая первая буква "Р".
4. Альтернативные варианты: Теоретически, в данном контексте могли бы использоваться другие топонимы, начинающиеся на разные буквы, однако поскольку первый вариант был уже указан ранее, наиболее вероятно, что речь идет о том же самом месте. К тому же, если бы это было другое название, то, скорее всего, оно отличалось бы не только первой буквой, но и другими элементами, чтобы избежать путаницы.
Вероятность того, что пропущенная буква – это "Р", составляет около 90%, так как она соответствует первому упоминанию населенного пункта и сохраняет последовательность изложения информации в договоре.
Таким образом, исходя из контекста и структуры предложения, наиболее вероятным вариантом для пропущенной буквы является "Р", и, следовательно, слово должно выглядеть как "Ровное".
Ответ 1-2 (ChatGPT) - Для определения пропущенного символа в тексте договора купли-продажи домовладения, я проанализировал контекст и структуру предложения. Рассмотрим цепочку рассуждений более подробно:
1. Контекст документа: Текст представляет собой официальный документ, касающийся купли-продажи домовладения. В таких документах часто указываются названия населенных пунктов, что является важной частью идентификации сторон сделки.
2. Анализ текста: В предложении упоминается «поселок (село) с. Ровное КXXXX района КYYYY области». Здесь мы видим, что слово «Ровное» уже присутствует, и оно, вероятно, является названием села, в котором происходит сделка.
3. Положение символа «?»: Символ «?» стоит перед словом «овное». Это указывает на то, что пропущена одна буква в начале слова. Учитывая, что слово «Ровное» является наиболее логичным и распространенным названием в данном контексте, можно предположить, что пропущена буква «Р».
4. Вероятностная оценка:
4.1. С точки зрения частоты употребления, название «Ровное» известно и может быть связано с КXXXX районом КYYYY.
4.2. Другие возможные названия с окончанием «овное» в этом районе менее вероятны, так как они не так широко известны или распространены.
4.3. Таким образом, вероятность того, что пропущенная буква — это «Р», представляется высокой, возможно, около 80-90%.
5. Заключение: На основе анализа контекста, структуры текста и вероятностной оценки, можно с уверенностью утверждать, что пропущенный символ «?» в данном случае обозначает букву «Р», и слово, в котором он определен, — «Ровное».
Эта логическая цепочка подтверждает, что выбор слова «Ровное» является обоснованным и вероятным в данном контексте.
Как видим, оба обоснования не углублялись в лингвистические дебри и выбрали самое простое доказательство на основе топонимики, которое звучит следующим образом: вероятность того, что в одном и том же районе два населенных пункта будут иметь названия, различающиеся только первой буквой, близка к нулю.
Если мы из промпта будем удалять дополнительные факты, это усложнит задачу для робота.
Возьмем следующий рисунок и составим для него промпт. Текст на рисунке, для того чтоб могли сравнить верность решения GPT-систем сформулирован так: «Самовольно возведенная или переоборудованная площадь (кв.м.)»
-- ПРОМПТ 7-1 ---
Ты эксперт-лингвист проводящий экспертизу.
В ВЫРАЖЕНИИ представлена часть текста протокола судебного заседания, текст написан на русском языке и каждое слово состоит из букв русского языка. Несколько символов этого документа не читаем и обозначены «?» (знак вопроса). Количество неизвестных символов в словах не определены.. Определи, какие символы русского языка должны стоять вместо символов «?» и представь в ответе фразу полностью.
ВЫРАЖЕНИЕ
Председательствующий сообщает, что в судебное заседание вызван для допроса ?стровый инженер, осматривающий ранее территорию земельного участка ?адлежащего истцу.
GigaChat ChatGPT начали отвечать такое, что добиться от них результата было сложно. Если интересно вот протоколы общения с ними Promt_19_7_Gigachat, Promt_19_7_ChatGPT.
Две другие GPT_системы ответили правильно и с первого раза.
Ответ 7-3 (o1-mini)
Председательствующий сообщает, что в судебное заседание вызван для допроса кадастровый инженер, осматривающий ранее территорию земельного участка надлежащего истцу.
Ответ 7-4 (gremlin)
Отлично, приступим к лингвистической экспертизе.
Анализируя контекст и оставшиеся буквы, мы можем восстановить пропущенные символы в ВЫРАЖЕНИИ.
* **?стровый** - Вероятно, речь идёт о профессии, связанной с земельными участками и строительством. Наиболее подходящее слово - "**кадастровый**". В этом случае пропущены буквы "када".
* **?адлежащего** - Контекст подсказывает, что речь идет о земельном участке, который каким-то образом связан с истцом. Слово, которое описывает принадлежность, - "**принадлежащего**". В этом случае пропущены буквы "прин".
-- ПРОМПТ 2-1 --
Ты эксперт-лингвист проводящий экспертизу «Исследование текста в целях решения вопросов смыслового понимания».
В ТЕКСТЕ представлен заголовок таблицы из технического паспорта на здание. Несколько символов этого документа не читаем и обозначены ? (знак вопроса). Количество символов и количество пробелов определены точно. Определи эти символы и представь в ответе фразу полностью.
ТЕКСТ
С?м?в?ль?о ?о?веден??я ??? пер?об??удо??н?я ??ощ?дь (?в.м.)
GigaChat ChatGPT начали отвечать такое, что добиться от них результата было сложно. Если интересно вот протоколы общения с ними: Promt_19_2_Gigachat, Promt_19_2_ChatGPT.
Продолжение следует
Часть 1. Давайте дружить
Часть 2. Криминалистическое описание
Часть 3. Дефекты печати, пока не преодолимо
Часть 4-1. Систематизация (1)
Часть 4-2. Систематизация (2)
Часть 5. Инструменты GPT
Часть 6. Zero-shot - контролируй соперника
Часть 7.
Часть 8.
Часть 9.