Один из основных параметров текста в работе копирайтера — уникальность. Ее проверяют многие сервисы, и именно эти проверки вызывают множество вопросов у начинающих авторов: я писал текст сам, я не списывал, а текст неуникальный, почему текст.ру показывает 100%, а content-watch.ru — 80%?
Чтобы получить ответы на все эти вопросы, надо разобраться, как работает система проверки уникальности текста.
Что такое антиплагиат
Антиплагиат — это программа, которая сверяет исходный текст (загруженный для проверки) с подобными тематическими в интернете.
Например, проверка задания по text.ru показывает уникальность 70%, это значит, что на 70% текст уникален, то есть 70% текста не встречается на других сайтах. На 30% текст пересекается с другими источниками в интернете.
Как происходит проверка
Первичная обработка текста
Система разбивает текст на мелкие фрагменты — шинглы. Он состоит из нескольких слов или его частей. Именно по шинглам алгоритм будет сверять текст с другими подобными.
Шинглы формируются не последовательно, а внахлест. То есть каждый последующий шингл наследует слово или его часть из предыдущего.
Чем меньше шингл, тем строже проверка уникальности. Рассмотрим пример разбивки текста на шинглы из 3 слов:
Когда я изучу алгоритмы проверки текста на уникальность, смогу писать лучше.
Для антиплагиата этот текст при простейшем разложении может выглядеть так:
когда я изучу
изучу алгоритмы проверки
проверки текста на
на уникальность, смогу
смогу писать лучше
Но современные антиплагиаты используют куда более продвинутые методы разбивки текста.Они могут не учитывать стоп-слова, могут нарезать текст не по целым словам, а по их частям (например, “да я изу”), а также использовать другие методы формирования уникальных фрагментов (например, по количеству символов, исключая пробелы).
Чем меньше шингл, тем сложнее добиться уникальности.
Шинглы — не единственный способ обработки текста для проверки уникальности. Антиплагиаты также используют:
- алгоритм определения морфологии — именно поэтому замена падежа или числа слов в неуникальном фрагменте не повышает уникальность;
- алгоритм определения синонимов — а также синонимайза (машинной обработки текста с подстановкой синонимов) — вне зависимости от используемого синонима, фрагмент останется неуникальным;
- алгоритмы определения грамматических связей — поэтому уникальности не реагирует на перестановку слов;
- алгоритм проверки на замены символов — например, о русская заменяется о английской.
Совокупность методов повышает жесткость конкретной программы. Чем больше методов применяется, тем строже проверка и тем сложнее вывести уникальность.
Это первичная обработка текста. После того, как текст готов, алгоритм начинает сравнение с тематическими текстами в сети.
Собственно проверка уникальности
Есть 2 основных метода проверки:
- по собственной базе текстов — такой подход позволяет ускорить проверку. Программа создает и регулярно обновляет базу текстов, по которой происходит сравнение;
- по тематической выборке — для проверки текста алгоритм быстро формирует выборку тематических текстов (например, по топ-30 поисковых систем) и сравнивает проверяемый текст с новой выборкой. Для поиска тематических текстов используются выделенные в тексте фрагменты.
Каждый фрагмент (шингл) антиплагиат использует как поисковый запрос, выбирая из выдачи/собственной базы тексты для сравнения. Чем больше текст, тем по большему количеству фрагментов формируется выборка сравниваемых документов. Какое количество фрагментов конкретная система проверки использует для формирования выборки, не известно .
Ни одна программа антиплагиата не раскрывает набор применяемых алгоритмов и процесс сравнения текстов.
Есть один надежный метод повышения уникальности текста — полное изменение неуникального фрагмента с близлежащим окружением. Не попытка исправить несколько слов (что иногда тоже срабатывает), а полная замена фрагмента новым.