43 подписчика

Чистка большого числа ключевых слов

22 марта 202022 мар 2020

321

7 мин

Оглавление

Как почистить большой список запросов?
Шаг 1: Удаление дублей
Шаг 2: Минус-слова

Привет, я продолжаю серию статей про семантику.

Ранее я уже писал о том как собрать большую семантику для вашего сайта. И как быстро почистить список слов. Но что, если этого не достаточно и слов по прежнему слишком много?

Иногда в процессе сбора ключей у вас может получиться список от 3 до 15 тысяч ключевых запросов, и просейка нулевых не решает проблему перегруженности семантического ядра.

Именно решением данной проблемы мы и займемся в этой статье.

Как почистить большой список запросов?

Наша ключевая задача – убрать ненужные ключи из большого списка запросов.

Итак, приступим. Из статьи про большую семантику - у меня на входе было собрано ядро из 24279 ключевых слов. Ясное дело, что ручная чистка – весьма проблемное занятие. Поэтому нам нужно сначала максимально сократить число ключевых слов автоматическим и полу-автоматическим способом.

Шаг 1: Удаление дублей

Дубли ключевых слов могут расширить семантику и увеличить оценочную привлекательность того или иного кластера запросов. Однако поисковые системы склеивают дубли запросов, отдавая по ним одну выдачу и ведя единую статистическую единицу. Т.к. выдача по аффилированным ключам не различается, учет дублей может повлечь раздувание семантического ядра и неверную оценку трафикового потенциала.

Пример типичных дублей, которые имеют признаки склейки:

Дубли бывают:

Полные дубли
Такой дубль – если когда в вашем списке 2 раза встречается слово «игрушки москва» и «игрушки Москва ». Различие может быть в лишнем пробеле или разном регистре.
Орфографические/Пунктуационные
Такие дубли могут содержать разное расположение «игрушки москва» и «москва игрушки», иметь знаки препинания или различие пунктуации «игрушки москва.»
Неточные/лемматические
Дубли по лемматической базе слова:
«игрушки москва», «игрушки в москве», «игрушка москва»

Рекомендуется по умолчанию удалить все дубли из списка.

В программе KeyCollector есть функция «Анализ неявных дублей», которая так же позволяет анализировать и удалить дубликаты ключевых слов:

Сначала жмем «Умная отметка», затем «Удалить»:

Из наших 24279 ключей KeyCollector удалил 1548 дублей.

Шаг 2: Минус-слова

Следующим этапом рекомендуется удалить слова, которые содержат минус-слова.

Нужно понимать, что для каждого семантического ядра существуют собственные минус-слова.

Например, для коммерческой тематики можно выбирать минус-слова, присущие информационным запросам, например:

своими руками, фото,видео, название, применение, рейтинг, вики, характеристика, как, сделать, сдать, что, можно, скачать, бесплатно, размер и др.

Отдельно информацию о том, как подбирать минус-слова, вы можете прочитать в отдельной статье, следите за публикациями на блоге.

В нашем случае после удаления дублей необходимо удалить слова, которые явно не подходят нашей тематике.

В уже небезызвестной нам программе KeyCollector есть функция «Стоп-слова»:

Мы в анализируемом проекте просеяли на основные информационные минус-слова, в итоге:

На удаление пошло 2440 ключевых запросов. Примеры удаленных слов:

ковры для детского сада требования
ковры для детского сада бесплатно
ковры для детского сада купить недорого в леруа мерлен
ковры для детского сада какой выбрать
конструктор для детей чем полезен
конструктор для детей что развивает

В настоящее время в семантическом ядре осталось еще 20240 ключей, что достаточно много.

Шаг 3: Чистим ключи по частотности

О том, как проверять на частоту вы можете прочитать в статье «экспресс-чистки» ключевых слов.

Когда основным критерием выбора метода является время, то я пользуюсь платными вариантами сервиса Topvisor – проверка общей частотности для 20240 ключей вышла в 401 руб. Для своих проектов я выбираю проверку Keycollector.

3.1. Чистим по общей частотности

Далее выгружаем полученные данные в XLS и удаляем все запросы, которые имеют нулевую частоту.

В нашем случае, учитывая, что запросов очень много, можно повысить нижний порог вхождения – удалять все запросы с частотностью ниже 10 посетителей в месяц.

В программе просмотра XLS, например – OpenOffice – открываем файл
Включаем фильтрацию по столбцу частоты (Данные -> Фильтрация ->Быстрый фильтр)
Отфильтровываем строки с нужной частотой (например – 0)
Удаляем все строки:

Иллюстрация удаления слов с нулевой частотностью

Из нашего семантического ядра из 20240 первичных слов осталось только 2054. Итого, порядка 90% запросов были отсеяны на этапе фильтрации по общей частоте. Неплохо, согласитесь?

3.2. Удаляем геонезависимые запросы по частотному признаку

После столь существенной чистки у нас все-равно остается довольно много ключевых слов.

Следующим этапом мы удалим слова, имеющие признаки географической независимости.

Для этого для отобранных 1905 слов проверяем точную частотность в регионе (в кавычках).

Проверку для быстроты процесса мы проводим так же платным сервисом – на этот раз проверка остатка вышла на 33.74 руб.

После проверки выгружаем данные в XLS. Там нужно провести процедуру отделения очевидных ГНЗ запросов, для этого:

Сортируем по ячейке с точной частотой – выбираем 0 (или 0-1).
Тут же сортируем столбец с запросами – нам нужно убрать из выборки на удаление слова, содержащие нужный нам город:

Отделяем выборку ГНЗ в отдельный список.

То, почему мы убираем эти запросы из нашего семантического ядра – понятно по их выборке:

Пример выборки с большой разницей в частотностях

Эти запросы в региональной выдаче не принесут трафика.

Однако и полностью удалять эти запросы я не рекомендую – из можно будет использовать для донабора ключевых слов.

Как проводить донабор - тема будущей статьи в моем блоге, не отключайтесь

По итогу данной процедуры были отсеяны 1074 ключевых слов.

Итого, в нашем семантическом ядре осталось 982 запросов.

3.3. Удаляем геонезависимые запросы по топу

Геозависимость можно проверить как отдельными сервисами, так и программами или собственными руками.

Пример проверки геозависимости программой KeyCollector:

Проверка геозависимости программой Keycollector

Сервис Мегаиндекс предлагает провести классификацию запросов (до 1000 запросов бесплатно):

Пример проверки сервисом Megaindex.Классификатор:

Как мы видим, здесь показатель геозависимости рассчитан в виде процентов.

На этом моменте нужно остановиться и еще раз вспомнить – какую задачу мы решаем. В моем случае сайту нужны исключительно коммерческие запросы в локальном регионе.

Для этого мне нужно отсеять запросы географически независимые запросы, поэтому идеальный вариант фильтрации – это 0% геозависимый запрос с 0% коммерческих сайтов.

По понятным причинам, рамки фильтрации нужно расширить, чтобы устранить не только точные, но и склонные к информационному направлению запросы.

Я использовал значения сервиса MegaIndex – фильтрую по:

Коммерческих сайтов - 0%
Геозависимость <31%
Запрос не содержит «Екатеринбург»

Пример отфильтрованных ключей:

lego education lego wedo
lego education mindstorms ev3
lego education wedo 9580
агния барто игрушки читать
благоустройство детского сада территории
богородская игрушка картинки
богородская игрушка фото
водный транспорт картинки для детей
...
хохлома для детей
хохлома картинки для детей
хохломская роспись для детей картинки
шнуровка для детей
щиты лего нексо найтс
электронная информационно образовательная среда

Убеждаемся по общему списку, что наша фильтрация корректна.

В определенных случаях можно корректировать фильтрацию в более строгие значения или наоборот – расширять.

Основной признак – чтобы в удаляемом перечне не оказались очевидно-правильные и нужные запросы (например, «купить», «цена», «город»). Если они встречаются – то с фильтрацией что-то не так, т.к. запросы с данным видом интента должны присутствовать в конечной семантике.

Я отсортировал по итогу еще 323 запросов, таким образом текущее семантическое ядро стало тоньше почти на треть и состоит уже из 661 ключей.

Посмотрим распределение 10 главных конкурентов по конечному списку ключей:

Распределение конкурентов при анализе выдачи Яндекс

Синим выделены агрегаторы, зеленым – интернет-магазины. Так или иначе, топ составляют коммерческие сайты. А теперь глянем такое же распределение по удаленным недавно 323 запросам:

Как мы видим – подавляющее большинство сайтов по удаленному списку составляют информационные ресурсы, статьи, видео и социальные сети.

Из этого можно сделать вывод, что мы правильно отсеяли ключи на последнем этапе.

Шаг 4: Последний этап

Итого, в нашей семантике из 24279 ключей остался только 661 запрос. Интересно, что мы еще пока не заглядывали в эти запросы – т.к. все работы выше проходили безотносительно ключевых слов. Для формирования правильных настроек нам нужна была только тематика и ее особенности.

В случае, если предполагается проводить кластеризацию этих запросов – то на кластеризацию можно брать все эти запросы и дальнейшей работы по чистке не требуется.

Если кластеризация проводиться не будет, то этот список нужно чистить вручную.