Определяем дублированный контент

13 мая 201913 мая 2019

1 мин

Появление дублированного контента имеет различное происхождение. Одинаковый документ может отличаться за счет разных форматов кодировок, а также применением графики. Большая часть публикаций копируются с нарушением авторских прав и синонимизируются для получения уникального контента с точки зрения ПС. Если говорить о копипасте, то поисковым системам определять такой текст не составляет проблем. Для этого нужно просто сравнить контрольную сумму текста с другими текстами. Если какой-либо текст будет иметь полное совпадение с первоисточником, то такой текст обычно поисковыми системами игнорируется. Однако данный метод не подходит для определения поверхностного рерайта. Под поверхностным рерайтом понимается замена некоторых слов синонимами, а также вставка наречий, междометий и тому подобное. Чтобы решить эту задачу в 1997 году был изобретен алгоритм, так называемых «шинглов». Для каждой фразы, которая состоит из десяти слов выполняется расчет контрольной суммы. Эти фразы должны перекрыв

Если говорить о копипасте, то поисковым системам определять такой текст не составляет проблем. Для этого нужно просто сравнить контрольную сумму текста с другими текстами. Если какой-либо текст будет иметь полное совпадение с первоисточником, то такой текст обычно поисковыми системами игнорируется. Однако данный метод не подходит для определения поверхностного рерайта. Под поверхностным рерайтом понимается замена некоторых слов синонимами, а также вставка наречий, междометий и тому подобное.

Чтобы решить эту задачу в 1997 году был изобретен алгоритм, так называемых «шинглов». Для каждой фразы, которая состоит из десяти слов выполняется расчет контрольной суммы. Эти фразы должны перекрывать друг друга, чтобы ничего не потерять. Далее из этого множества контрольных сумм выбираются такие, которые можно поделить на одинаковое число. Понятное дело, что повтор даже одной фразы является весомым признаком того, что текст является дубликатом. Если повторов насчитывается больше пятидесяти процентов, то можно утверждать, что текст является копированным.

Развитие данного алгоритма предоставило возможность выявлять процент перекрытия текстов, что в дальнейшем давало возможность обнаруживать первоисточники, которые использовались для его создания. Данная мысль является актуальной для блоггеров использующие темы WordPress, которые свои посты вывешивают на сплогах. Ведь их тексты молниеносно появляются в общей базы из которой текст может взять кто угодно.

По какой причине ПС не во всех случаях могут адекватно искать первоисточники? В первую очередь, алгоритмы далеки от совершенства. Далее первоисточником является тот текст, который первым попал в индекс. Если так получится, что сайт, который индексируется быстро, сворует текст у новичка, страницы которого индексируются несколько дней, то первоисточником будет именно текст, который проиндексирован первым. Вполне возможно, что есть и другие причины.