Появление дублированного контента имеет различное происхождение. Одинаковый документ может отличаться за счет разных форматов кодировок, а также применением графики. Большая часть публикаций копируются с нарушением авторских прав и синонимизируются для получения уникального контента с точки зрения ПС. Если говорить о копипасте, то поисковым системам определять такой текст не составляет проблем. Для этого нужно просто сравнить контрольную сумму текста с другими текстами. Если какой-либо текст будет иметь полное совпадение с первоисточником, то такой текст обычно поисковыми системами игнорируется. Однако данный метод не подходит для определения поверхностного рерайта. Под поверхностным рерайтом понимается замена некоторых слов синонимами, а также вставка наречий, междометий и тому подобное. Чтобы решить эту задачу в 1997 году был изобретен алгоритм, так называемых «шинглов». Для каждой фразы, которая состоит из десяти слов выполняется расчет контрольной суммы. Эти фразы должны перекрыв