Термин "спам" появился в интернете в начале 90-х и ассоциировался в основном с массовыми email-рассылками, которые распространяли ненужную людям информацию рекламного или другого характера. Но мало кто знает, что само слово “SPAM” расшифровывается как Spiced Ham (острая ветчина) и Shoulders of pork and ham (свиные лопатки и окорока). Впервые слово использовалось в 1936 году в качестве товарного знака для острых мясных консерв американской компании Hormel Foods. После Первой мировой войны, чтобы избавиться от остатков товара в избыточном количестве, компания запустила большую рекламную кампанию - на автомобилях и фасадах домов, на самолетах и кораблях, на автобусах и трамваях, на витринах, в газетах и по радио, везде, где только можно было, бросалось в глаза слово "SPAM". В дальнейшем, оно стало употребляться по отношению к любой ненужной и часто повторяющейся, бесполезной, навязчивой информации, а людей которые распространяли спам называли - спамерами.
Поисковый и контентный спам
- Поисковый спам (спамдексинг) - разновидность веб-спама, применяется с целью обмануть поисковую систему и искусственно поднять веб-страницу в ТОП выдач, манипулировать результатами поиска. Проявляется через искусственное повышение частоты вхождений ключевого слова в тексте, в метатегах (title, h1, description), анкорах, атрибутах изображений. К поисковому спаму также относятся: свопинг, дорвеи, кликджекинг, клоакинг, дублированный, замаскированный контент и другие методы Black Hat SEO.
- Контентный спам - это малополезный, не релевантный и не уникальный, автоматически сгенерированный или перенасыщенный рекламой, не оптимизированный контент. Проявляется через высокую тошноту и заспамленность, а также "водность" текста, переспам по ключевым словам, не качественный рерайт.
Как поисковые системы реагируют на спам в текстах?
С появлением первых поисковых систем не было четко определенных алгоритмов семантического анализа, релевантность веб-страницы определялась в основном мета-тегами "keywords" и "description", что позволяло манипулировать SERP'ом (от Search Engines Result Page - результаты поисковой выдачи). Таким образом, количество не качественных сайтов, а также сайтов, которые использовали дублированный, украденный контент росло. В итоге, SERP захламлялся, а пользователь не получал точных результатов. Поисковики решили изменить эту ситуацию и ввели специальные фильтры, которые "зачищали" поисковую выдачу от спамных сайтов. Таким образом, в ТОП начали попадать только страницы, которые соответствуют поисковой оптимизации.
Какие же существуют фильтры поисковиков? Давайте остановимся на этом подробнее.
Текстовые фильтры Яндекса
- Фильтр "Переспам" - появился, по словам некоторых оптимизаторов, еще в 2010 году и коснулся текстов сайтов. Оптимизаторы дали ему свое имя - «Ты спамный». Фильтр задевал длинные, не релевантные, "водяные" тексты-портянки, которые не имели четкой структуры, насыщенные большим количеством ключевых слов - писались не для людей, а поисковых ботов. Сайты, который попадали под фильтр резко теряли позиции (на 10-30 ступенек).
- Фильтр "Новый" - является усовершенствованным алгоритмом «Переспама». Внимательный к сайтам с чрезмерно долгим и заспамленным Title, а также злоупотребление тегами выделения слова в тексте - <b>, <u>, <strong>, <em> и <i>, которые применяются некоторыми оптимизаторами для искусственного поднятия частоты ключевого слова на странице.
- Фильтр "Баден-Баден" - является фактически сборной версией всех предыдущих антиспам-фильтров Яндекса. Был запущен 22 марта 2017. Его особенность - искусственный интеллект, который способен распознавать человеческую речь. Его задача - полностью и окончательно избавиться от спамных сайтов и сделать SERP более информативным и релевантным.
Текстовые фильтры Google
- Фильтр "Панда" - по некоторым данным появился еще в 2011 году, а может и раньше. В отличие от "Пингвина", который наказывал за ссылочный спам, Панда проверяла их на дублированный и не оптимизированный контент. Сайты, которые копировали контент с других ресурсов, или публиковали бессмысленный, малоценный контент, насыщенный рекламой - подвергались жесткой фильтрации.
- Фильтр "Колибри" - его название происходит от скорости и точности птички колибри. Запущен 26 сентября 2013. «Колибри» стал вестником глубокого семантического анализа с применением искусственного интеллекта, который постепенно внедрялся в Google. «Колибри» точно понимает логику поискового запроса пользователя, естественную человеческую речь, учитывая контекст и значение отдельных слов, с акцентом на разговорный стиль. Колибри еще называют - «понимающим алгоритмом». Таким образом, веб-разработчикам и авторам было рекомендовано оптимизировать свои сайты, используя естественное сочетание слов, например LSI-ключевые слова.
Как проверить попал ли ваш сайт под фильтр?
Проверить, были ли применены какие-то действия со стороны поисковых систем очень просто с помощью вебмастеров. В Яндекс Вебмастере перейдите в пункт Диагностика -> Безопасность и нарушения:
В Google Search Console - Проблемы безопасности и меры, принятые вручную -> Меры, принятые вручную:
Что такое заспамленность, водность, тошнота текста?
Заспамленность текста - это слишком частое повторение ключевого слова в тексте. Измеряется соотношением количества вхождений ключевого слова к общему числу слов в тексте. Заспамленность не должна превышать 60%. Тексты с высоким процентом заспамленности могут пессимизироваться поисковыми роботами (позиции понижаются за переспам), а при большом количестве заспамленных веб-страниц - сайт и вовсе могут забанить и он исчезнет из результатов поиска.
На уровень заспамленности веб-страницы также влияют такие показатели как: водность и тошнота текста.
- Водность текста - наличие в тексте стоп-слов, фразеологизмов, а также словесных оборотов, фраз, соединительных слов, не несущими смысловой нагрузки. От 15% до 30% - превышенное содержание воды в тексте, такой текст требует оптимизации.
- Тошнота текста - примерно то же, что и заспамленность, являет собой насыщенность текста ключевыми словами, делится на классическую и академическую тошноту текста. По показателям тошноты можно судить о естественности, качестве текста. Высокий показатель тошноты означает, что текст писался для поисковых ботов, а не людей. Рекомендуется не поднимать классическую тошноту выше 3, академическая тошнота должна быть в пределах 3-10%.
Пример заспамленного текста (курсивом выделен переспам по ключевому слову):
"Мы продаем эксклюзивные коробки для сигар. Наши эксклюзивные коробки для сигар изготавливаются вручную. Если вы хотите приобрести эксклюзивную коробку для сигар, свяжитесь с нашим специалистом по продаже коробок для сигар по адресу eksklusivnie.korobki@example.com."
Читать статью полностью: Что такое заспамленность текста и как этого избежать