Найти тему

Текстовый майнинг (Text Mining) в процессах перефразирования и рерайта академических текстов для антиплагиат

Ежегодно, студенты совершают миллионы антиплагиат-онлайн проверок, для достижения нужной оригинальности текстов. При этом, чтобы проверку на плагиат пройти, прибегают к помощи автоматизации рерайта с помощью программ-переводчиков и GPT-сервисов.

Представьте себя в роли руководителя компании, которая ищет текстовые заимствования (плагиат), зарабатывая на этом достаточно приличные деньги. Какими будут ваши действия, если в систему проверки начнут попадать тексты после авторерайта и эти тексты начнут проходить проверку с первого раза, а прибыль компании упадет в 2 раза? Глядя на то, как падает прибыль от проверок, любой руководитель будет искать способы удержать прибыль на прежнем уровне и у этого руководителя есть объяснение, GPT-авторерайт не имеет ничего общего с самостоятельным трудом студента или аспиранта.

Вероятно традиционное перефразирование и рерайт в ближайшее время перестанут работать. Антиплагиат.ВУЗ понимает возможности генеративных GPT сервисов, умеющих делать как обычный, так и очень глубокий рерайт. Это понимание формируют результаты тестов, например, если текст перевести в программе переводчике, можно добиться максимального отличия, при сверке по шинглам, состоящим из 2 слов – Ш2=80%. Отталкиваясь от этого процента антиплагиат сервис может принять решение не считать тексты с отличием Ш2=80% оригинальными. Аналогично и для GPT-перефразирования, если авторерайт дает 90%, то порог срабатывания модуля поиска перефразирования и модуля поиска рерайта должен измениться, а значит тексты после авторерайта, отличающиеся по показателю Ш2=90%, проходить проверку не будут.

Итак, пытаясь работать на «опережение», системы проверок академических текстов на плагиат понимают, что если текст «А» прогнать через нейросеть, простой командой – «сделай глубокий рерайт», а полученный по итогу текст «Б» пройдет проверку с первого раза, то это потеря прибыли.

С большой долей вероятности к простым, привычным алгоритмам проверки на плагиат добавились статистические методы, которые опровергают или подтверждают вероятности. Примером является следующий ход мыслей. Имеется текст «А», рерайтер добросовестно перефразирует каждое предложение, получая в итоге текст «Б». Ниже приведены данные текста до рерайта и текста после перефразирования:

Текст «А» - 1467 предложений; текст «Б» - 1467 предложений.

Более глубокая статистика дополнительно показывает:

Текст «А» - 146 абзацев; текст «Б» - 146 абзацев.
Текст «А» - 12 рисунков; текст «Б» - 12 рисунков.
Текст «А» - 7 таблиц; текст «Б» - 7 таблиц.

Обратите внимание на статистику, как вы считаете текст «А» и текст «Б», который прошел рерайт, разные или одинаковые?

Расширим статистику, в тексте «А» и «Б» содержится ссылочный аппарат, он совпадает или отличается на 10-20%, например:

А.Я. Кибанов [13, С. 57] - 1 абзац, предложение 4

А.С. Фридман [46, С. 72-77] – 3 абзац, предложение 8

В.И. Петров [24, С. 35] - 5 абзац, предложение 2

Н.М. Сидоров [8, С. 49] - 7 абзац, предложение 6

Л.П. Иванов [20, С. 30] - 9 абзац, предложение 3

Е.В. Смирнова [32, С. 53] - 11 абзац, предложение 7

Д.А. Кузнецов [15, С. 38] - 13 абзац, предложение 5

И.В. Орлов [29, С. 42] - 15 абзац, предложение 1

О.С. Фролов [37, С. 64] - 17 абзац, предложение 9

П.В. Захаров [12, С. 23] - 19 абзац, предложение 4

М.Н. Тихонов [26, С. 46] - 21 абзац, предложение 2

С.А. Козлов [10, С. 34] - 23 абзац, предложение 6

Ю.В. Григорьев [18, С. 39] - 25 абзац, предложение 3

Т.И. Васильев [43, С. 51] - 27 абзац, предложение 7

К.А. Михайлов [6, С. 28] - 29 абзац, предложение 5

В.А. Николаев [31, С. 55] - 31 абзац, предложение 1

А.В. Соколов [23, С. 40] - 33 абзац, предложение 9

Л.Н. Попов [14, С. 32] - 35 абзац, предложение 4

Р.В. Крылов [41, С. 63] - 37 абзац, предложение 2

И.С. Морозов [19, С. 36] - 39 абзац, предложение 6

Е.А. Лебедев [27, С. 48] - 41 абзац, предложение 3

П.С. Киселев [9, С. 29] - 43 абзац, предложение 7

Н.В. Федоров [34, С. 54] - 45 абзац, предложение 5

В.Г. Антонов [22, С. 37-38] - 47 абзац, предложение 1

А.И. Белов [16, С. 43] - 49 абзац, предложение 9

Как вы думаете, тексты «А» и «Б» - одинаковые?

Стандартный шингловый метод может дополнительно показать, что в тексте «А» и «Б» в 1 абзаце есть фраза «корпоративная ответственность» - это шингл из 2 слов, если это произойдет уникальность абзаца будет похоронена и в этом помогут совпадения: А.Я. Кибанов [13, С. 57] - 1 абзац, предложение 4 + «корпоративная ответственность».

Какие в этой связи могут быть рекомендации, текст после перефразирования должен иметь 100% отличие при сверке по шинглам, состоящим из 2 слов. Метод в основном рабочий, однако при заимствовании большими кусками (параграфами, главами) эффективность метода может снижаться. Снижение эффективности – нелинейное, другими словами, дефицит в несколько процентов не пропустит текст в категорию оригинального.

Вторая рекомендация, в связи с развитием генеративных моделей, как не странно, антиплагиат сервисы их тоже заметили и взяли на вооружение. В этой связи одной из задач рерайтера является перефразирование текста c уровнем отличия, который находится за пределами программ переводчиков и GPT-моделей. Например, если отзывчивость текста на GPT-рерайт 70%, то данный текст должен быть перефразирован с отличием на 10-20% больше, а значит требуется ручной труд по разбивке шинглов.

Методы антиплагиат-анализа текстов помимо статистических могут дополняться технологиями Text Mining (текстовый майнинг) — это процесс извлечения полезной информации и знаний из текстовых данных с использованием различных методов и технологий. Последовательность фактов (полезной информации) и порядок их следования является порядком изложения, и он тоже может выступать метрикой плагиата. Сервис КонтрПлагиат встречался с такой проблемой неоднократно, например, текст перефразирован с отличием Ш2=100%, но он остается плагиатом. Изменение порядка следования фактов (иногда это называют – поменять абзацы местами) благотворно влияет на оригинальность, увеличивая ее.

Рассмотрим на примере как извлекаются факты, текст, который опубликован выше содержит следующие факты:

- рерайт и перефразирование вскоре могут стать неэффективными из-за расширения функционала технологий обнаружения плагиата;

- Антиплагиат.ВУЗ, совершенствуется, нивелируя GPT возможности при выполнении глубокого рерайта;

- потеря прибыли сервиса антиплагиат возникает, если текст после авторерайта проходит проверку с первого раза;

- ужесточение проверок в антиплагиат связано с расширением статистических методов, которые включены в алгоритмы;

- статистический анализ может использоваться для отслеживания сходств между текстами «A» и «B» с целью обнаружения статистических сходств, которые предыдущие алгоритмы могут пропустить;

- улучшенные алгоритмы поиска плагиата могут оценивать перефразированный контент, выявляя факты и порядок их следования.

Задача рерайтера не просто поменять абзацы местами, а разрушить порядок следования фактов, дополняя его или удаляя ненужное.

Вероятно, рерайтеры захотят ввести алгоритм перестройки фактов в свою практику. Такая обработка текста не должна вызвать затруднение, т.к. в процессе обучения GPT, когда обрабатывались текстовые массивы Интернета, Text Mining в той или иной форме уже был проведен. При написании инструкций для GPT нужно попросить ИИ вспомнить эти данные и обратиться к уже имеющимся результатам.

Рассмотрим пример, на рис. 1 представлен результат сверки двух текстов, в правом окне находится текст источник, в левом, отличающийся на 100%, текст после перефразирования с учетом фактов.

Рисунок 1 - Сверка текстов по методу шинглов, правое окно - текст-источник, левое окно - текст после КонтрПлагиата, Ш2=100%, масштабирование +20%
Рисунок 1 - Сверка текстов по методу шинглов, правое окно - текст-источник, левое окно - текст после КонтрПлагиата, Ш2=100%, масштабирование +20%

Процесс извлечения фактов:

1. Проверка на плагиат стала обычной практикой как среди преподавателей, так и среди студентов.

2. Студенты часто проверяют свои собственные работы, чтобы избежать публичных обвинений в плагиате.

3. Университеты и колледжи подчеркивают важность прав интеллектуальной собственности и мотивируют студентов правильно обращаться с плагиатом.

4. Воспроизведение интеллектуальной собственности имеет решающее значение как во время студенческой презентации исследований, так и на этапе абстрагирования.

5. Реферирование — это методологический подход в научной работе, включающий извлечение ключевых семантических компонентов.

6. Реферирование формирует концептуальную основу для будущих исследований, предоставляя упрощенные и общие идеи.

7. Задачи реферирования включают упрощение сложных предложений, определение ключевых предложений или абзацев и обобщение выявленной информации в краткий текст.

8. Эти виды реферирования улучшают понимание студентами вопросов, представленных в научных работах.

9. На ранних этапах исследования студентам не хватает необходимых навыков, поэтому требуется руководство со стороны преподавателя.

10. Преподаватели должны выделить проблемы, рассматриваемые по-разному как минимум в двух статьях, для сравнения и обсуждения.

11. Сравнение различных точек зрения позволяет учащимся оценить спорные аспекты проблемы и сформировать собственное мнение.

12. Абстрагирование также полезно для формирования индивидуальных точек зрения посредством анализа нескольких источников.

Добавление новых фактов:

13. Университеты все чаще интегрируют цифровые инструменты и технологии для оптимизации процесса проверки на плагиат [8, стр. 12].

Новая группировка фактов:

1. Проверка на плагиат и ее растущая актуальность: (1, 2, 3, 13)

2. Интеллектуальная собственность в образовании и исследованиях: (4, 3)

3. Реферирование как методологический инструмент в исследованиях: (5, 6, 7)

4. Образовательная деятельность и ее роль в понимании: (8, 9)

5. Роль учителя в руководстве развитием исследований: (9, 10, 11)

6. Сравнительный анализ для критического мышления: (10, 11, 12)

Как видно из группировки фактов, добавлен новый факт №13, он введен в группировку №1.

Перефразированный текст с учетом нового факта представлен в Приложении 1, его отличие от источника по методу Ш2=100%, масштабирование, в связи с новым фактом + 20%.

Процесс добавления фактов на разных текстах показывает разную эффективность, так например при использовании заспамленных текстов желательно добавлять 1 новый факт, через 1-3 существующих факта.

Приложение 1 - Текст после перефразирования

Проверка текстов на плагиат - распространенная практика как среди преподавателей, так и среди студентов. Преподавателям часто необходимо убедиться в том, что научные работы, представленные студентами, соответствуют стандартам интеллектуальной собственности, поэтому студенты часто проверяют свои работы заранее, опасаясь последствий обвинений. Это явление отражает растущее понимание прав интеллектуальной собственности в учебных заведениях. В частности, университеты и колледжи уделяют большое внимание воспитанию у своих студентов чувства ответственности за правильное использование и цитирование интеллектуальных материалов. Интеграция цифровых инструментов поддерживает этот процесс, позволяя более эффективно выявлять плагиат и следить за соблюдением правил [8, с. 12].

Помимо этих технологических достижений, вопрос воспроизведения интеллектуальной собственности имеет первостепенное значение как для представления результатов исследований, так и для реферирования соответствующих научных работ. Реферирование, то есть извлечение наиболее важных компонентов из большого текста, играет важнейшую роль в методологии разработки исследований. Благодаря этому процессу студенты могут создать концептуальную основу для своих будущих исследований, упрощая сложные идеи и обобщая важную информацию в кратких и последовательных форматах.

В этом контексте важными считаются несколько задач на абстрагирование. Эти задачи включают в себя упрощение сложных структур предложений - преобразование сложных предложений с причастиями и наречиями в более простые предложения - выявление основных предложений или абзацев, а затем обобщение выявленных данных в более короткий, единый текст. Участвуя в таких заданиях, студенты глубже понимают основные темы, освещенные в исследовательской литературе.

Однако на ранних этапах исследования учащиеся часто не имеют необходимых навыков для самостоятельного выполнения подобных заданий. Поэтому очень важно, чтобы преподаватель вмешался, определив темы, которые по-разному рассматриваются в разных статьях, и предоставил студентам возможность провести сравнительный анализ. Такой сравнительный подход не только позволяет выявить различные точки зрения на тему, но и способствует выработке собственной точки зрения на нее.

Сравнение различных научных мнений - ценный инструмент для развития критического мышления. Оно позволяет учащимся вникнуть в спорные аспекты конкретной темы и сформировать обоснованное личное мнение на основе изученного материала. Таким образом, роль абстракции в сочетании с подобным сравнительным анализом оказывается неоценимой частью учебного процесса, поскольку она способствует развитию независимого мышления, рефлексии и выработке личной точки зрения.

Подводя итог, можно сказать, что практика проверки на плагиат, а также методичное применение абстрагирования и сравнительного анализа вносят значительный вклад в академическое и исследовательское развитие студентов. Эти методы прививают студентам не только умение уважать интеллектуальную собственность, но и навыки критического мышления, необходимые для самостоятельных научных изысканий.

Читать другие статьи и пересборке фактов в процессе рерайта

Написание текста по образцу, показываем на примере

КонтрПлагиат фактов для успешного прохождения онлайн проверки антиплагиат.ВУЗ