Найти в Дзене

Частотный словарь: что такое, зачем и как составить

Настоящий директолух, исходя из специфики своих задач, просто обязан работать с семантическими ядрами. И чем больше ядро, тем выше его самооценка.
Однако, при работе с объемами уже более 1000 фраз ручная работа становится нерентабельной, особенно, если вы специалист на стороне агентства и получаете лишь свой процент от небольшого процента агентства от прибыли клиента, которую приносит ваша работа. Нужно автоматизировать. Но автоматизировать работу умеет далеко не каждый директолух, и поэтому настраивает рекламу на пределе своих человеческих возможностей (если вообще работает на пределе). К чему это приводит в общем случае?
Как специалист, проводивший не один аудит проработки семантики рекамных кампаний, могу сказать, что ситуации с плохой проработкой встречаются каждый первый раз. Дайте мне доступы к вашему аккаунту, и я покажу, где проблемы у вас ;) Более того, я не могу похвастаться, что мои аккаунты являются идеальными. Везде есть пространство для улучшений. Я люблю говорить, чт
Оглавление

Каков размер вашего семантического ядра?
1000 фраз? 10.000 фраз? А может, это число с шестью или более, нулями?
Настоящий директолух, исходя из специфики своих задач, просто обязан работать с семантическими ядрами. И чем больше ядро, тем выше его самооценка.
Однако, при работе с объемами уже более 1000 фраз ручная работа становится
нерентабельной, особенно, если вы специалист на стороне агентства и получаете лишь свой процент от небольшого процента агентства от прибыли клиента, которую приносит ваша работа. Нужно автоматизировать.

Но автоматизировать работу умеет далеко не каждый директолух, и поэтому настраивает рекламу на пределе своих человеческих возможностей (если вообще работает на пределе).

Директолух, который не автоматизирует свою работу
Директолух, который не автоматизирует свою работу

К чему это приводит в общем случае?
Как специалист, проводивший не один аудит проработки семантики рекамных кампаний, могу сказать, что ситуации с плохой проработкой встречаются каждый первый раз. Дайте мне доступы к вашему аккаунту, и я покажу, где проблемы у вас ;)

Более того, я не могу похвастаться, что мои аккаунты являются идеальными. Везде есть пространство для улучшений. Я люблю говорить, что контекстная реклама сама по себе - один большой набор ошибок.

И что в итоге делать, как их избежать? Ответ таков, что избежать ошибок невозможно, но их можно минимизировать, если ранжировать от большего к меньшему.

Принцип Парето в контекстной рекламе

Кто знаком с правилом Парето? 20% усилий дают 80% результата. Правило Парето в моих проектах работает идеально - 20% ключевых слов приносят 80% конверсий. Но это мне известно уже постфактум, а по каким показателям ранжировать на этапе проектирования архитектуры аккаунта и первичного запуска, и как?

Общеизвестными при сборе семантического ядра ключевыми факторами для слов и фраз являются релевантность семантики, частотность фраз, их коммерциализация и геозависимость.

Какой из факторов наиболее влиятельный - предмет споров, но в первую очередь поговорим о частотности как самом очевидном.

Что такое частотность? В целом это синоним слова "частота". Количество упоминаний какой-то сущности в рамках некого множества. В рамках анализа семантики используется частотность фраз по Вордстату, иначе говоря, статистическая информация от Яндекса по количеству запросов пользователей, содержащих слова фраз в той или иной форме.

Но при анализе семантики специалисты смотрят в первую очередь не на всю фразу целиком, а на ее составляющие - отдельные слова и их сочетания. Это и позволяет разложить семантику "по полочкам" - какие запросы релевантны, а какие - нет.

Так вот, чтобы в первую очередь проработать самые важные слова, нужно проанализировать их на предмет их встречаемости во всем массиве фраз - это простой путь, но сильно повышающий эффективность.

Как бы это делалось вручную? Фразы были бы разбиты на слова, собраны в один столбец, и затем была бы построена сводная таблица, содержащая уникальные значения и их количество напротив каждого. В целом несложная процедура, но все же занимает время, т.к. фразы могут быть совершенно разной длины.

Инструмент анализа N-gram в Excel

Есть ли способы упростить вышеупомянутую задачу? Конечно же. Есть множество программных решений, автоматизирующих этот процесс. И одно из них доступно прямо в Excel, как макрос надстройки !SEMTools. Это был один из первых макросов, который я написал и внедрил в надстройку. Сегодня это уже не один, а несколько инструментов - есть анализ N-грамм с частотностью и в принципе по нескольким метрикам, и анализ биграмм без учета стоп-слов.

Меню анализа N-gram в надстройке !SEMTools
Меню анализа N-gram в надстройке !SEMTools

Приведу пример, как будет выглядеть частотный словарь семантического ядра, собранного путем парсинга поисковых подсказок гугл по фразе "купить собаку".
Производим сбор указанным на скриншоте макросом (ниже показан уже результат выдачи):

-3

Выделяем полученное семантическое ядро и вызываем макрос выше. Результат после сортировки по частотности будет выглядеть так. В топе популярных пород - хаски, терьер, шпиц и бульдог:

Видно, что наиболее упоминаемая и подсказываемая порода - хаски, затем идут терьер, шпиц и бульдог. Еще заметно, что очень популярны щенки (всех пород).
Видно, что наиболее упоминаемая и подсказываемая порода - хаски, затем идут терьер, шпиц и бульдог. Еще заметно, что очень популярны щенки (всех пород).

Но с простым упоминанием фразы в массиве решение не совсем подходит для анализа фраз с уже известной частотностью. А дело в том, что часто бывают ситуации, когда в семантическое ядро попадают фразы с кардинально разной частотностью, но при этом упомянутые одинаковое количество раз.

Для того, чтобы избежать данной ситуации, я разработал макрос, который берет на вход 2 столбца - массив фраз в левом столбце, и их частотность - в правом. Для начала нужно собрать известную частотность фразы. Я рекомендую собирать через прогноз бюджета Яндекса - т.к. он учитывает истинную частотность, с учетом кросс-минусовки фраз. Однако картина не будет кардинально отличаться, если собирать данные через кейколлектор и подобные инструменты и собранные базы частотностей.
Выделяем столбцы ключевых слов и частотностей (заголовки не нужно):

-5

И жмем макрос:

-6

В отличие от первого, данный макрос для каждого слова считает и суммирует не факт его встречаемости в ядре, а факт его запрашиваемости в Яндексе, как составной части поискового запроса пользователя.
Наблюдаем, что, в отличие от
поисковых подсказок, которые выдает Google, в Яндексе у пользователей более популярны породы шпиц, чихуахуа и корги.

-7

Что мы получаем на выходе?
В первом случае - количество упоминаний слова в тексте. Это также может быть полезно при анализе SEO-текстов на переспам.

Во втором же случае - мы получаем ранжированный по запрашиваемости список слов, которые присутствовали в запросах пользователей. Он будет более полезен для понимания, как часто будет показываться наша реклама в поиске, если не исключить и не "заминусовать" это слово.

Ну вот, теперь, я надеюсь, вопрос расстановки приоритетов решен! Качаем бесплатную надстройку SEMTools для Excel, устанавливаем и оптимизируем подход к работе.

Нравятся мои материалы? Палец вверх, чтобы читать в ленте похожие, и подписывайтесь, чтобы не пропустить новые!