Найти в Дзене
SiteAnalyzer

Коэффициенты сжатия в алгоритмах поисковых систем

Поисковые системы могут использовать "Коэффициенты сжатия", чтобы упростить идентификацию страниц низкого качества на большом масштабе. Недавно была отличная статья от Roger Montti, которая осталась в значительной степени незамеченной. Это наводит на мысль о том, что поисковые системы, такие как Google, могут использовать сжимаемость для вычисления вероятности того, что страница будет спамом. Сжатие является распространенной практикой в интернете. Идея заключается в том, что алгоритмы поисковых систем могут находить повторяющиеся слова и ненужный текст, чтобы уменьшить общий размер документа. В результате, окончательный сжатый документ будет урезанной версией оригинала, чтобы занимать меньше места. Аналог этому — «Сжатие файлов JS/CSS» — распространенная практика повышения скорости работы сайта. Концепция заключается в том, что поисковые системы могут использовать сжимаемость в качестве определяющего фактора качества контента. Чем больше ваша страница может быть сжата, тем больше вероя

Поисковые системы могут использовать "Коэффициенты сжатия", чтобы упростить идентификацию страниц низкого качества на большом масштабе.

Недавно была отличная статья от Roger Montti, которая осталась в значительной степени незамеченной. Это наводит на мысль о том, что поисковые системы, такие как Google, могут использовать сжимаемость для вычисления вероятности того, что страница будет спамом.

Сжатие является распространенной практикой в интернете. Идея заключается в том, что алгоритмы поисковых систем могут находить повторяющиеся слова и ненужный текст, чтобы уменьшить общий размер документа. В результате, окончательный сжатый документ будет урезанной версией оригинала, чтобы занимать меньше места. Аналог этому — «Сжатие файлов JS/CSS» — распространенная практика повышения скорости работы сайта.

Концепция заключается в том, что поисковые системы могут использовать сжимаемость в качестве определяющего фактора качества контента. Чем больше ваша страница может быть сжата, тем больше вероятность того, что она является спамом, поскольку содержит ненужную информацию.

В своей статье Roger Montti нашел исследовательскую работу 2006 года от Марка Найорка и Денниса Феттерли. Исследование показало, что 70% страниц с коэффициентом сжатия 4,0 и более с большей вероятностью являются спамом.

Несмотря на то, что коэффициенты сжатия не были на 100% точными в идентификации спама, они были одним из лучших методов, обнаруженных исследователями. Это означает, что они могут сочетать сжимаемость с другими факторами, чтобы более точно оценить, действительно ли страница низкого качества.

Из любопытства - зашел в API Leaks, чтобы выявить упоминания о коэффициентах сжатия. В модели индексирования есть переменные как для ContentLength, так и для uncompressedContentLength. Так что прямо здесь есть доказательства того, что они могут сравнить эти два понятия.

В последнее время Cyrus S. (Сайрус Шепард) много писал о том, как сайты, попавшие под действие обновления полезного контента, были чрезмерно SEO-оптимизированы. Это может быть одним из способов, объясняющих, почему данные сайты получили фильтр HCU.

Больше полезных новостей и инструментов на нашем телеграм-канале https://t.me/siteanalyzer