114 подписчиков

Мой текст неуникальный или как работает антиплагиат

11 февраля 202111 фев 2021

3 мин

Оглавление

Что такое антиплагиат
Как происходит проверка
Первичная обработка текста

Один из основных параметров текста в работе копирайтера — уникальность. Ее проверяют многие сервисы, и именно эти проверки вызывают множество вопросов у начинающих авторов: я писал текст сам, я не списывал, а текст неуникальный, почему текст.ру показывает 100%, а content-watch.ru — 80%?

Чтобы получить ответы на все эти вопросы, надо разобраться, как работает система проверки уникальности текста.

Что такое антиплагиат

Антиплагиат — это программа, которая сверяет исходный текст (загруженный для проверки) с подобными тематическими в интернете.

Например, проверка задания по text.ru показывает уникальность 70%, это значит, что на 70% текст уникален, то есть 70% текста не встречается на других сайтах. На 30% текст пересекается с другими источниками в интернете.

Как происходит проверка

Первичная обработка текста

Система разбивает текст на мелкие фрагменты — шинглы. Он состоит из нескольких слов или его частей. Именно по шинглам алгоритм будет сверять текст с другими подобными.

Шинглы формируются не последовательно, а внахлест. То есть каждый последующий шингл наследует слово или его часть из предыдущего.

Чем меньше шингл, тем строже проверка уникальности. Рассмотрим пример разбивки текста на шинглы из 3 слов:

Когда я изучу алгоритмы проверки текста на уникальность, смогу писать лучше.

Для антиплагиата этот текст при простейшем разложении может выглядеть так:

когда я изучу

изучу алгоритмы проверки

проверки текста на

на уникальность, смогу

смогу писать лучше

Но современные антиплагиаты используют куда более продвинутые методы разбивки текста.Они могут не учитывать стоп-слова, могут нарезать текст не по целым словам, а по их частям (например, “да я изу”), а также использовать другие методы формирования уникальных фрагментов (например, по количеству символов, исключая пробелы).

Чем меньше шингл, тем сложнее добиться уникальности.

Шинглы — не единственный способ обработки текста для проверки уникальности. Антиплагиаты также используют:

алгоритм определения морфологии — именно поэтому замена падежа или числа слов в неуникальном фрагменте не повышает уникальность;
алгоритм определения синонимов — а также синонимайза (машинной обработки текста с подстановкой синонимов) — вне зависимости от используемого синонима, фрагмент останется неуникальным;
алгоритмы определения грамматических связей — поэтому уникальности не реагирует на перестановку слов;
алгоритм проверки на замены символов — например, о русская заменяется о английской.

Совокупность методов повышает жесткость конкретной программы. Чем больше методов применяется, тем строже проверка и тем сложнее вывести уникальность.

Это первичная обработка текста. После того, как текст готов, алгоритм начинает сравнение с тематическими текстами в сети.

Собственно проверка уникальности

Есть 2 основных метода проверки:

по собственной базе текстов — такой подход позволяет ускорить проверку. Программа создает и регулярно обновляет базу текстов, по которой происходит сравнение;
по тематической выборке — для проверки текста алгоритм быстро формирует выборку тематических текстов (например, по топ-30 поисковых систем) и сравнивает проверяемый текст с новой выборкой. Для поиска тематических текстов используются выделенные в тексте фрагменты.

Каждый фрагмент (шингл) антиплагиат использует как поисковый запрос, выбирая из выдачи/собственной базы тексты для сравнения. Чем больше текст, тем по большему количеству фрагментов формируется выборка сравниваемых документов. Какое количество фрагментов конкретная система проверки использует для формирования выборки, не известно .

Ни одна программа антиплагиата не раскрывает набор применяемых алгоритмов и процесс сравнения текстов.

Есть один надежный метод повышения уникальности текста — полное изменение неуникального фрагмента с близлежащим окружением. Не попытка исправить несколько слов (что иногда тоже срабатывает), а полная замена фрагмента новым.