309 подписчиков

Частотный словарь: что такое, зачем и как составить

30 июля 201830 июл 2018

599

4 мин

Настоящий директолух, исходя из специфики своих задач, просто обязан работать с семантическими ядрами. И чем больше ядро, тем выше его самооценка.

Однако, при работе с объемами уже более 1000 фраз ручная работа становится нерентабельной, особенно, если вы специалист на стороне агентства и получаете лишь свой процент от небольшого процента агентства от прибыли клиента, которую приносит ваша работа. Нужно автоматизировать. Но автоматизировать работу умеет далеко не каждый директолух, и поэтому настраивает рекламу на пределе своих человеческих возможностей (если вообще работает на пределе). К чему это приводит в общем случае?

Как специалист, проводивший не один аудит проработки семантики рекамных кампаний, могу сказать, что ситуации с плохой проработкой встречаются каждый первый раз. Дайте мне доступы к вашему аккаунту, и я покажу, где проблемы у вас ;) Более того, я не могу похвастаться, что мои аккаунты являются идеальными. Везде есть пространство для улучшений. Я люблю говорить, чт

Оглавление

Принцип Парето в контекстной рекламе
Инструмент анализа N-gram в Excel

Каков размер вашего семантического ядра?
1000 фраз? 10.000 фраз? А может, это число с шестью или более, нулями?
Настоящий директолух, исходя из специфики своих задач, просто обязан работать с семантическими ядрами. И чем больше ядро, тем выше его самооценка.
Однако, при работе с объемами уже более 1000 фраз ручная работа становится нерентабельной, особенно, если вы специалист на стороне агентства и получаете лишь свой процент от небольшого процента агентства от прибыли клиента, которую приносит ваша работа. Нужно автоматизировать.

Но автоматизировать работу умеет далеко не каждый директолух, и поэтому настраивает рекламу на пределе своих человеческих возможностей (если вообще работает на пределе).

К чему это приводит в общем случае?
Как специалист, проводивший не один аудит проработки семантики рекамных кампаний, могу сказать, что ситуации с плохой проработкой встречаются каждый первый раз. Дайте мне доступы к вашему аккаунту, и я покажу, где проблемы у вас ;)

Более того, я не могу похвастаться, что мои аккаунты являются идеальными. Везде есть пространство для улучшений. Я люблю говорить, что контекстная реклама сама по себе - один большой набор ошибок.

И что в итоге делать, как их избежать? Ответ таков, что избежать ошибок невозможно, но их можно минимизировать, если ранжировать от большего к меньшему.

Принцип Парето в контекстной рекламе

Кто знаком с правилом Парето? 20% усилий дают 80% результата. Правило Парето в моих проектах работает идеально - 20% ключевых слов приносят 80% конверсий. Но это мне известно уже постфактум, а по каким показателям ранжировать на этапе проектирования архитектуры аккаунта и первичного запуска, и как?

Общеизвестными при сборе семантического ядра ключевыми факторами для слов и фраз являются релевантность семантики, частотность фраз, их коммерциализация и геозависимость.

Какой из факторов наиболее влиятельный - предмет споров, но в первую очередь поговорим о частотности как самом очевидном.

Что такое частотность? В целом это синоним слова "частота". Количество упоминаний какой-то сущности в рамках некого множества. В рамках анализа семантики используется частотность фраз по Вордстату, иначе говоря, статистическая информация от Яндекса по количеству запросов пользователей, содержащих слова фраз в той или иной форме.

Но при анализе семантики специалисты смотрят в первую очередь не на всю фразу целиком, а на ее составляющие - отдельные слова и их сочетания. Это и позволяет разложить семантику "по полочкам" - какие запросы релевантны, а какие - нет.

Так вот, чтобы в первую очередь проработать самые важные слова, нужно проанализировать их на предмет их встречаемости во всем массиве фраз - это простой путь, но сильно повышающий эффективность.

Как бы это делалось вручную? Фразы были бы разбиты на слова, собраны в один столбец, и затем была бы построена сводная таблица, содержащая уникальные значения и их количество напротив каждого. В целом несложная процедура, но все же занимает время, т.к. фразы могут быть совершенно разной длины.

Инструмент анализа N-gram в Excel

Есть ли способы упростить вышеупомянутую задачу? Конечно же. Есть множество программных решений, автоматизирующих этот процесс. И одно из них доступно прямо в Excel, как макрос надстройки !SEMTools. Это был один из первых макросов, который я написал и внедрил в надстройку. Сегодня это уже не один, а несколько инструментов - есть анализ N-грамм с частотностью и в принципе по нескольким метрикам, и анализ биграмм без учета стоп-слов.

Приведу пример, как будет выглядеть частотный словарь семантического ядра, собранного путем парсинга поисковых подсказок гугл по фразе "купить собаку".
Производим сбор указанным на скриншоте макросом (ниже показан уже результат выдачи):

Выделяем полученное семантическое ядро и вызываем макрос выше. Результат после сортировки по частотности будет выглядеть так. В топе популярных пород - хаски, терьер, шпиц и бульдог:

Видно, что наиболее упоминаемая и подсказываемая порода - хаски, затем идут терьер, шпиц и бульдог. Еще заметно, что очень популярны щенки (всех пород).

Но с простым упоминанием фразы в массиве решение не совсем подходит для анализа фраз с уже известной частотностью. А дело в том, что часто бывают ситуации, когда в семантическое ядро попадают фразы с кардинально разной частотностью, но при этом упомянутые одинаковое количество раз.

Для того, чтобы избежать данной ситуации, я разработал макрос, который берет на вход 2 столбца - массив фраз в левом столбце, и их частотность - в правом. Для начала нужно собрать известную частотность фразы. Я рекомендую собирать через прогноз бюджета Яндекса - т.к. он учитывает истинную частотность, с учетом кросс-минусовки фраз. Однако картина не будет кардинально отличаться, если собирать данные через кейколлектор и подобные инструменты и собранные базы частотностей.
Выделяем столбцы ключевых слов и частотностей (заголовки не нужно):

И жмем макрос:

В отличие от первого, данный макрос для каждого слова считает и суммирует не факт его встречаемости в ядре, а факт его запрашиваемости в Яндексе, как составной части поискового запроса пользователя.
Наблюдаем, что, в отличие от поисковых подсказок, которые выдает Google, в Яндексе у пользователей более популярны породы шпиц, чихуахуа и корги.

Что мы получаем на выходе?
В первом случае - количество упоминаний слова в тексте. Это также может быть полезно при анализе SEO-текстов на переспам.

Во втором же случае - мы получаем ранжированный по запрашиваемости список слов, которые присутствовали в запросах пользователей. Он будет более полезен для понимания, как часто будет показываться наша реклама в поиске, если не исключить и не "заминусовать" это слово.

Ну вот, теперь, я надеюсь, вопрос расстановки приоритетов решен! Качаем бесплатную надстройку SEMTools для Excel, устанавливаем и оптимизируем подход к работе.

Нравятся мои материалы? Палец вверх, чтобы читать в ленте похожие, и подписывайтесь, чтобы не пропустить новые!

Образование

4,84 млн интересуются