Найти в Дзене
#IT-надзор

Чистка большого числа ключевых слов

Оглавление

Привет, я продолжаю серию статей про семантику.

pixabay.com
pixabay.com

Ранее я уже писал о том как собрать большую семантику для вашего сайта. И как быстро почистить список слов. Но что, если этого не достаточно и слов по прежнему слишком много?

Иногда в процессе сбора ключей у вас может получиться список от 3 до 15 тысяч ключевых запросов, и просейка нулевых не решает проблему перегруженности семантического ядра.

Именно решением данной проблемы мы и займемся в этой статье.

Как почистить большой список запросов?

Наша ключевая задача – убрать ненужные ключи из большого списка запросов.

Итак, приступим. Из статьи про большую семантику - у меня на входе было собрано ядро из 24279 ключевых слов. Ясное дело, что ручная чистка – весьма проблемное занятие. Поэтому нам нужно сначала максимально сократить число ключевых слов автоматическим и полу-автоматическим способом.

Шаг 1: Удаление дублей

Дубли ключевых слов могут расширить семантику и увеличить оценочную привлекательность того или иного кластера запросов. Однако поисковые системы склеивают дубли запросов, отдавая по ним одну выдачу и ведя единую статистическую единицу. Т.к. выдача по аффилированным ключам не различается, учет дублей может повлечь раздувание семантического ядра и неверную оценку трафикового потенциала.

Пример типичных дублей, которые имеют признаки склейки:

Пример дублей ключевых слов
Пример дублей ключевых слов

Дубли бывают:

  • Полные дубли
    Такой дубль – если когда в вашем списке 2 раза встречается слово «игрушки москва» и «игрушки Москва ». Различие может быть в лишнем пробеле или разном регистре.
  • Орфографические/Пунктуационные
    Такие дубли могут содержать разное расположение «игрушки москва» и «москва игрушки», иметь знаки препинания или различие пунктуации «игрушки москва.»
  • Неточные/лемматические
    Дубли по лемматической базе слова:
    «игрушки москва», «игрушки в москве», «игрушка москва»

Рекомендуется по умолчанию удалить все дубли из списка.

В программе KeyCollector есть функция «Анализ неявных дублей», которая так же позволяет анализировать и удалить дубликаты ключевых слов:

Анализ неявных дублей в Keycollector
Анализ неявных дублей в Keycollector

Сначала жмем «Умная отметка», затем «Удалить»:

Удаление неявных дублей в Keycollector
Удаление неявных дублей в Keycollector

Из наших 24279 ключей KeyCollector удалил 1548 дублей.

Шаг 2: Минус-слова

Следующим этапом рекомендуется удалить слова, которые содержат минус-слова.

Нужно понимать, что для каждого семантического ядра существуют собственные минус-слова.

Например, для коммерческой тематики можно выбирать минус-слова, присущие информационным запросам, например:

своими руками, фото,видео, название, применение, рейтинг, вики, характеристика, как, сделать, сдать, что, можно, скачать, бесплатно, размер и др.

Отдельно информацию о том, как подбирать минус-слова, вы можете прочитать в отдельной статье, следите за публикациями на блоге.

В нашем случае после удаления дублей необходимо удалить слова, которые явно не подходят нашей тематике.

В уже небезызвестной нам программе KeyCollector есть функция «Стоп-слова»:

функция Стоп-Слова в Keycollector
функция Стоп-Слова в Keycollector

Мы в анализируемом проекте просеяли на основные информационные минус-слова, в итоге:

На удаление пошло 2440 ключевых запросов. Примеры удаленных слов:

  • ковры для детского сада требования
  • ковры для детского сада бесплатно
  • ковры для детского сада купить недорого в леруа мерлен
  • ковры для детского сада какой выбрать
  • конструктор для детей чем полезен
  • конструктор для детей что развивает

В настоящее время в семантическом ядре осталось еще 20240 ключей, что достаточно много.

Шаг 3: Чистим ключи по частотности

О том, как проверять на частоту вы можете прочитать в статье «экспресс-чистки» ключевых слов.

Когда основным критерием выбора метода является время, то я пользуюсь платными вариантами сервиса Topvisor – проверка общей частотности для 20240 ключей вышла в 401 руб. Для своих проектов я выбираю проверку Keycollector.

3.1. Чистим по общей частотности

Далее выгружаем полученные данные в XLS и удаляем все запросы, которые имеют нулевую частоту.

В нашем случае, учитывая, что запросов очень много, можно повысить нижний порог вхождения – удалять все запросы с частотностью ниже 10 посетителей в месяц.

  1. В программе просмотра XLS, например – OpenOffice – открываем файл
  2. Включаем фильтрацию по столбцу частоты (Данные -> Фильтрация ->Быстрый фильтр)
  3. Отфильтровываем строки с нужной частотой (например – 0)
  4. Удаляем все строки:
Иллюстрация удаления слов с нулевой частотностью
Иллюстрация удаления слов с нулевой частотностью

Из нашего семантического ядра из 20240 первичных слов осталось только 2054. Итого, порядка 90% запросов были отсеяны на этапе фильтрации по общей частоте. Неплохо, согласитесь?

3.2. Удаляем геонезависимые запросы по частотному признаку

После столь существенной чистки у нас все-равно остается довольно много ключевых слов.

Следующим этапом мы удалим слова, имеющие признаки географической независимости.

Для этого для отобранных 1905 слов проверяем точную частотность в регионе (в кавычках).

Проверку для быстроты процесса  мы проводим так же платным сервисом – на этот раз проверка остатка вышла на 33.74 руб.

После проверки выгружаем данные в XLS. Там нужно провести процедуру отделения очевидных ГНЗ запросов, для этого:

  • Сортируем по ячейке с точной частотой – выбираем 0 (или 0-1).
  • Тут же сортируем столбец с запросами – нам нужно убрать из выборки на удаление слова, содержащие нужный нам город:
Манипуляции с семантическим ядром в XLS
Манипуляции с семантическим ядром в XLS
  • Отделяем выборку ГНЗ в отдельный список.

То, почему мы убираем эти запросы из нашего семантического ядра – понятно по их выборке:

Пример выборки с большой разницей в частотностях
Пример выборки с большой разницей в частотностях

Эти запросы в региональной выдаче не принесут трафика.

Однако и полностью удалять эти запросы я не рекомендую – из можно будет использовать для донабора ключевых слов.

Как проводить донабор - тема будущей статьи в моем блоге, не отключайтесь

По итогу данной процедуры были отсеяны 1074 ключевых слов.

Итого, в нашем семантическом ядре осталось 982 запросов.

3.3. Удаляем геонезависимые запросы по топу

Геозависимость можно проверить как отдельными сервисами, так и программами или собственными руками.

Пример проверки геозависимости программой KeyCollector:

Проверка геозависимости программой Keycollector
Проверка геозависимости программой Keycollector

Сервис Мегаиндекс предлагает провести классификацию запросов (до 1000 запросов бесплатно):

Пример проверки сервисом Megaindex.Классификатор:

-10

Как мы видим, здесь показатель геозависимости рассчитан в виде процентов.

На этом моменте нужно остановиться и еще раз вспомнить – какую задачу мы решаем. В моем случае сайту нужны исключительно коммерческие запросы в локальном регионе.

Для этого мне нужно отсеять запросы географически независимые запросы, поэтому идеальный вариант фильтрации – это 0% геозависимый запрос с 0% коммерческих сайтов.

По понятным причинам, рамки фильтрации нужно расширить, чтобы устранить не только точные, но и склонные к информационному направлению запросы.

Я использовал значения сервиса MegaIndex – фильтрую по:

  • Коммерческих сайтов - 0%
  • Геозависимость <31%
  • Запрос не содержит «Екатеринбург»

Пример отфильтрованных ключей:

  • lego education lego wedo
  • lego education mindstorms ev3
  • lego education wedo 9580
  • агния барто игрушки читать
  • благоустройство детского сада территории
  • богородская игрушка картинки
  • богородская игрушка фото
  • водный транспорт картинки для детей
  • ...
  • хохлома для детей
  • хохлома картинки для детей
  • хохломская роспись для детей картинки
  • шнуровка для детей
  • щиты лего нексо найтс
  • электронная информационно образовательная среда

Убеждаемся по общему списку, что наша фильтрация корректна.

В определенных случаях можно корректировать фильтрацию в более строгие значения или наоборот – расширять.

Основной признак – чтобы в удаляемом перечне не оказались очевидно-правильные и нужные запросы (например, «купить», «цена», «город»). Если они встречаются – то с фильтрацией что-то не так, т.к. запросы с данным видом интента должны присутствовать в конечной семантике.

Я отсортировал по итогу еще 323 запросов, таким образом текущее семантическое ядро стало тоньше почти на треть и состоит уже из 661 ключей.

Посмотрим распределение 10 главных конкурентов по конечному списку ключей:

Распределение конкурентов при анализе выдачи Яндекс
Распределение конкурентов при анализе выдачи Яндекс

Синим выделены агрегаторы, зеленым – интернет-магазины. Так или иначе, топ составляют коммерческие сайты. А теперь глянем такое же распределение по удаленным недавно 323 запросам:

-12

Как мы видим – подавляющее большинство сайтов по удаленному списку составляют информационные ресурсы, статьи, видео и социальные сети.

Из этого можно сделать вывод, что мы правильно отсеяли ключи на последнем этапе.

Шаг 4: Последний этап

Итого, в нашей семантике из 24279 ключей остался только 661 запрос. Интересно, что мы еще пока не заглядывали в эти запросы – т.к. все работы выше проходили безотносительно ключевых слов. Для формирования правильных настроек нам нужна была только тематика и ее особенности.

В случае, если предполагается проводить кластеризацию этих запросов – то на кластеризацию можно брать все эти запросы и дальнейшей работы по чистке не требуется.

Если кластеризация проводиться не будет, то этот список нужно чистить вручную.

После ручной чистки в семантике осталось 611 ключей. Т.е. вручную мы удалили только 50 ключевых слов.

Пример удаленных слов вручную:

  • конструкторы одежды
  • конструкторы резюме
  • конструкторы танков
  • конструкторы шарики
  • конструкторы шкафов купе
  • костюмы для ролевые игры для взрослых