Привет, я продолжаю серию статей про семантику.
Ранее я уже писал о том как собрать большую семантику для вашего сайта. И как быстро почистить список слов. Но что, если этого не достаточно и слов по прежнему слишком много?
Иногда в процессе сбора ключей у вас может получиться список от 3 до 15 тысяч ключевых запросов, и просейка нулевых не решает проблему перегруженности семантического ядра.
Именно решением данной проблемы мы и займемся в этой статье.
Как почистить большой список запросов?
Наша ключевая задача – убрать ненужные ключи из большого списка запросов.
Итак, приступим. Из статьи про большую семантику - у меня на входе было собрано ядро из 24279 ключевых слов. Ясное дело, что ручная чистка – весьма проблемное занятие. Поэтому нам нужно сначала максимально сократить число ключевых слов автоматическим и полу-автоматическим способом.
Шаг 1: Удаление дублей
Дубли ключевых слов могут расширить семантику и увеличить оценочную привлекательность того или иного кластера запросов. Однако поисковые системы склеивают дубли запросов, отдавая по ним одну выдачу и ведя единую статистическую единицу. Т.к. выдача по аффилированным ключам не различается, учет дублей может повлечь раздувание семантического ядра и неверную оценку трафикового потенциала.
Пример типичных дублей, которые имеют признаки склейки:
Дубли бывают:
- Полные дубли
Такой дубль – если когда в вашем списке 2 раза встречается слово «игрушки москва» и «игрушки Москва ». Различие может быть в лишнем пробеле или разном регистре. - Орфографические/Пунктуационные
Такие дубли могут содержать разное расположение «игрушки москва» и «москва игрушки», иметь знаки препинания или различие пунктуации «игрушки москва.» - Неточные/лемматические
Дубли по лемматической базе слова:
«игрушки москва», «игрушки в москве», «игрушка москва»
Рекомендуется по умолчанию удалить все дубли из списка.
В программе KeyCollector есть функция «Анализ неявных дублей», которая так же позволяет анализировать и удалить дубликаты ключевых слов:
Сначала жмем «Умная отметка», затем «Удалить»:
Из наших 24279 ключей KeyCollector удалил 1548 дублей.
Шаг 2: Минус-слова
Следующим этапом рекомендуется удалить слова, которые содержат минус-слова.
Нужно понимать, что для каждого семантического ядра существуют собственные минус-слова.
Например, для коммерческой тематики можно выбирать минус-слова, присущие информационным запросам, например:
своими руками, фото,видео, название, применение, рейтинг, вики, характеристика, как, сделать, сдать, что, можно, скачать, бесплатно, размер и др.
Отдельно информацию о том, как подбирать минус-слова, вы можете прочитать в отдельной статье, следите за публикациями на блоге.
В нашем случае после удаления дублей необходимо удалить слова, которые явно не подходят нашей тематике.
В уже небезызвестной нам программе KeyCollector есть функция «Стоп-слова»:
Мы в анализируемом проекте просеяли на основные информационные минус-слова, в итоге:
На удаление пошло 2440 ключевых запросов. Примеры удаленных слов:
- ковры для детского сада требования
- ковры для детского сада бесплатно
- ковры для детского сада купить недорого в леруа мерлен
- ковры для детского сада какой выбрать
- конструктор для детей чем полезен
- конструктор для детей что развивает
В настоящее время в семантическом ядре осталось еще 20240 ключей, что достаточно много.
Шаг 3: Чистим ключи по частотности
О том, как проверять на частоту вы можете прочитать в статье «экспресс-чистки» ключевых слов.
Когда основным критерием выбора метода является время, то я пользуюсь платными вариантами сервиса Topvisor – проверка общей частотности для 20240 ключей вышла в 401 руб. Для своих проектов я выбираю проверку Keycollector.
3.1. Чистим по общей частотности
Далее выгружаем полученные данные в XLS и удаляем все запросы, которые имеют нулевую частоту.
В нашем случае, учитывая, что запросов очень много, можно повысить нижний порог вхождения – удалять все запросы с частотностью ниже 10 посетителей в месяц.
- В программе просмотра XLS, например – OpenOffice – открываем файл
- Включаем фильтрацию по столбцу частоты (Данные -> Фильтрация ->Быстрый фильтр)
- Отфильтровываем строки с нужной частотой (например – 0)
- Удаляем все строки:
Из нашего семантического ядра из 20240 первичных слов осталось только 2054. Итого, порядка 90% запросов были отсеяны на этапе фильтрации по общей частоте. Неплохо, согласитесь?
3.2. Удаляем геонезависимые запросы по частотному признаку
После столь существенной чистки у нас все-равно остается довольно много ключевых слов.
Следующим этапом мы удалим слова, имеющие признаки географической независимости.
Для этого для отобранных 1905 слов проверяем точную частотность в регионе (в кавычках).
Проверку для быстроты процесса мы проводим так же платным сервисом – на этот раз проверка остатка вышла на 33.74 руб.
После проверки выгружаем данные в XLS. Там нужно провести процедуру отделения очевидных ГНЗ запросов, для этого:
- Сортируем по ячейке с точной частотой – выбираем 0 (или 0-1).
- Тут же сортируем столбец с запросами – нам нужно убрать из выборки на удаление слова, содержащие нужный нам город:
- Отделяем выборку ГНЗ в отдельный список.
То, почему мы убираем эти запросы из нашего семантического ядра – понятно по их выборке:
Эти запросы в региональной выдаче не принесут трафика.
Однако и полностью удалять эти запросы я не рекомендую – из можно будет использовать для донабора ключевых слов.
Как проводить донабор - тема будущей статьи в моем блоге, не отключайтесь
По итогу данной процедуры были отсеяны 1074 ключевых слов.
Итого, в нашем семантическом ядре осталось 982 запросов.
3.3. Удаляем геонезависимые запросы по топу
Геозависимость можно проверить как отдельными сервисами, так и программами или собственными руками.
Пример проверки геозависимости программой KeyCollector:
Сервис Мегаиндекс предлагает провести классификацию запросов (до 1000 запросов бесплатно):
Пример проверки сервисом Megaindex.Классификатор:
Как мы видим, здесь показатель геозависимости рассчитан в виде процентов.
На этом моменте нужно остановиться и еще раз вспомнить – какую задачу мы решаем. В моем случае сайту нужны исключительно коммерческие запросы в локальном регионе.
Для этого мне нужно отсеять запросы географически независимые запросы, поэтому идеальный вариант фильтрации – это 0% геозависимый запрос с 0% коммерческих сайтов.
По понятным причинам, рамки фильтрации нужно расширить, чтобы устранить не только точные, но и склонные к информационному направлению запросы.
Я использовал значения сервиса MegaIndex – фильтрую по:
- Коммерческих сайтов - 0%
- Геозависимость <31%
- Запрос не содержит «Екатеринбург»
Пример отфильтрованных ключей:
- lego education lego wedo
- lego education mindstorms ev3
- lego education wedo 9580
- агния барто игрушки читать
- благоустройство детского сада территории
- богородская игрушка картинки
- богородская игрушка фото
- водный транспорт картинки для детей
- ...
- хохлома для детей
- хохлома картинки для детей
- хохломская роспись для детей картинки
- шнуровка для детей
- щиты лего нексо найтс
- электронная информационно образовательная среда
Убеждаемся по общему списку, что наша фильтрация корректна.
В определенных случаях можно корректировать фильтрацию в более строгие значения или наоборот – расширять.
Основной признак – чтобы в удаляемом перечне не оказались очевидно-правильные и нужные запросы (например, «купить», «цена», «город»). Если они встречаются – то с фильтрацией что-то не так, т.к. запросы с данным видом интента должны присутствовать в конечной семантике.
Я отсортировал по итогу еще 323 запросов, таким образом текущее семантическое ядро стало тоньше почти на треть и состоит уже из 661 ключей.
Посмотрим распределение 10 главных конкурентов по конечному списку ключей:
Синим выделены агрегаторы, зеленым – интернет-магазины. Так или иначе, топ составляют коммерческие сайты. А теперь глянем такое же распределение по удаленным недавно 323 запросам:
Как мы видим – подавляющее большинство сайтов по удаленному списку составляют информационные ресурсы, статьи, видео и социальные сети.
Из этого можно сделать вывод, что мы правильно отсеяли ключи на последнем этапе.
Шаг 4: Последний этап
Итого, в нашей семантике из 24279 ключей остался только 661 запрос. Интересно, что мы еще пока не заглядывали в эти запросы – т.к. все работы выше проходили безотносительно ключевых слов. Для формирования правильных настроек нам нужна была только тематика и ее особенности.
В случае, если предполагается проводить кластеризацию этих запросов – то на кластеризацию можно брать все эти запросы и дальнейшей работы по чистке не требуется.
Если кластеризация проводиться не будет, то этот список нужно чистить вручную.
После ручной чистки в семантике осталось 611 ключей. Т.е. вручную мы удалили только 50 ключевых слов.
Пример удаленных слов вручную:
- конструкторы одежды
- конструкторы резюме
- конструкторы танков
- конструкторы шарики
- конструкторы шкафов купе
- костюмы для ролевые игры для взрослых