574 подписчика

Что такое SEO Information Fingerprint и как рассчитать повторяемость страниц сайта?

29 сентября 202229 сен 2022

4 мин

Что такое SEO Information Fingerprint? На пути к SEO мы часто сталкиваемся с проблемой, то есть написанием оригинальных статей. Многие думают, что абзацы, извлеченные из различных статей в Интернете, можно объединить. Таким образом можно создать совершенно новый оригинальный контент, но на самом деле иногда, то, что мы представляем себе, не так просто. Особенно с постоянным совершенствованием алгоритмов поисковых систем. У другой стороны будет много стратегий для решения этой проблемы, таких как: проверка отпечатков информации документа. Итак, что такое информационный отпечаток SEO Information Fingerprint и как рассчитать повторяемость страниц сайта? Содержание статьи: Ключевые слова: поисковая система, копирование веб-страницы, алгоритм, информационный отпечаток, отпечаток пальца, ключевые слова Алгоритм подписи сегмента Алгоритм копирования страницы на основе ключевых слов Ключевые слова: поисковая система, копирование веб-страницы, алгоритм, информационный отпечаток, отпечаток пальц

Итак, что такое информационный отпечаток SEO Information Fingerprint и как рассчитать повторяемость страниц сайта?

Содержание статьи:

Ключевые слова: поисковая система, копирование веб-страницы, алгоритм, информационный отпечаток, отпечаток пальца, ключевые слова Алгоритм подписи сегмента Алгоритм копирования страницы на основе ключевых слов Ключевые слова: поисковая система, копирование веб-страницы, алгоритм, информационный отпечаток, отпечаток пальца, ключевые слова

Поисковые системы обычно оценивают дублированные веб-страницы, основываясь на идее, что для каждой веб-страницы вычисляется набор информационных отпечатков (Fingerprint). Если две веб-страницы имеют определенное количество одинаковых информационных отпечатков, содержимое двух веб-страниц считается сильно перекрывающимся, то есть содержимое двух страниц дублируется.

Многие поисковые системы используют разные методы оценки репликации контента, в основном из-за следующих двух различий:

Алгоритм вычисления информационного отпечатка (Fingerprint); Параметр для суждения о сходстве информационных отпечатков.

Прежде чем описывать конкретный алгоритм, давайте проясним два момента:

Что такое информационный отпечаток? Информационный отпечаток предназначен для извлечения определенной информации из текстовой информации на веб-странице. Эта информация может быть ключевыми словами, словами, предложениями или абзацами и их весами на веб-странице, и ее шифрования, такого как шифрование MD5, для формирования строки. Информационные отпечатки подобны отпечаткам пальцев человека, если содержание отличается, то и информационные отпечатки разные. Информация, извлекаемая алгоритмом, относится не ко всей веб-странице, а к оставшемуся тексту после фильтрации общих частей веб-сайта, таких как панель навигации, логотип, авторские права и другая информация (это называется «шумом» веб-сайта или страницы).

Алгоритм подписи сегмента

Этот алгоритм разрезает веб-страницу на N сегментов по определенным правилам, подписывает каждый сегмент и формирует информационный отпечаток каждого сегмента. Если M из этих N информационных отпечатков совпадают (m — это пороговое значение, определенное системой), они считаются дублирующимися веб-страницами.

Этот алгоритм является хорошим алгоритмом для мелкомасштабной оценки и копирования веб-страниц, но для такой крупной поисковой системы, как Google, сложность алгоритма довольно высока.

Алгоритм копирования страницы на основе ключевых слов

Поисковые системы, такие как Google, при сканировании веб-страниц будут записывать следующую информацию о веб-странице:

Ключевые слова, встречающиеся на веб-странице (технология сегментации слов), и вес каждого ключевого слова (плотность ключевых слов); Извлечет метаописание или 512 байт допустимого текста для каждой веб-страницы.

Что касается второго пункта, поисковые системы разные, google например извлекает ваше метаописание, если нет 512 байтов, связанных с ключевым словом запроса.

В следующем описании алгоритма мы согласовываем несколько переменных информационного отпечатка:

Pi представляет i-ю веб-страницу;

N ключевых слов с наибольшим весом на веб-странице составляют множество Ti={t1,t2,…tn}, а соответствующие веса Wi={w1,w2,…wi}

Абстрактная информация представлена Des(Pi), строка, образованная первыми n ключевыми словами, представлена Con(Ti), а строка, сформированная путем сортировки n ключевых слов, представлена Sort(Ti).

Приведенные выше информационные отпечатки зашифрованы с помощью функции MD5.

Существует пять типов алгоритмов копирования страниц на основе ключевых слов: MD5(Des(Pi))=MD5(Des(Pj)), что означает, что сводная информация точно такая же, а две веб-страницы i и j считаются дублирующими веб-страницами; MD5(Con(Ti))=MD5(Con(Tj)), ранжирование первых n ключевых слов и их веса у двух веб-страниц одинаковы, это считается дублирующей веб-страницей; MD5(Sort(Ti))=MD5(Sort(Tj)), первые n ключевых слов двух веб-страниц одинаковы, но веса могут быть разными, и это также считается дублирующей веб-страницей. MD5(Con(Ti))=MD5(Con(Tj)) и сумма квадрата Wi-Wj, деленная на квадрат Wi и Wj, меньше определенного порога a, то эти два значения считаются дублирование веб-страниц. MD5(Sort(Ti))=MD5(Sort(Tj)) и если сумма квадрата Wi-Wj, деленная на квадрат Wi и Wj, меньше определенного порога a, два считаются дублирование веб-страниц.

Что касается порогового значения а для 4-го и 5-го, это в основном потому, что при предыдущем условии суждения все еще будет много веб-страниц, которые будут случайно повреждены. Развитие поисковой системы корректируется в соответствии с коэффициентом распределения весов, чтобы предотвратить случайное повреждение.

Конечно, чем больше вы выберете вычислительных алгоритмов, тем точнее будет суждение, но скорость вычислений также замедлится. Поэтому необходимо учитывать баланс между скоростью вычислений и точностью дедупликации. По результатам теста Skynet наиболее подходящими являются около 10 ключевых слов.

Постскриптум

Вышеупомянутое, конечно, не может охватить все аспекты крупномасштабного копирования веб-страниц поисковыми системами, и они должны иметь некоторые вспомогательные информационные суждения об информационных отпечатков.

Спасибо, что читаешь Nicola Top