Найти в Дзене
Цифровой Океан

Возлюби хейтера своего: как работают современные роботы для анализа контента

Оглавление

В России 66 миллионов пользователей как минимум раз в месяц оставляют публичные сообщения в интернете (по данным Brand Analytics).

Как найти среди всех постов те, которые относятся лично к вам или к вашей компании? Нагуглить не получится.

Понадобится специальная аналитическая система с поисковыми роботами, нейросетями для обработки сообщений и сверхбыстрой базой данных, размещенной сразу в нескольких дата-центрах.

И оно того стоит: ведь репутация дороже денег.

К тест-драйву российской системы Brand Analytics мы подошли основательно — ​­запустили собственную пиар-кампанию. Ссылки на «Цифровой океан» разошлись по сайтам партнеров, и редакция приготовилась пожинать плоды.

Но как измерить эти плоды? Раньше мы бы собрали выборку респондентов, опросили их и посчитали медийный охват.

  • Компания Brand Analytics предлагает вместо этого новую социологию — ​ту, в которой понятие выборки теряет смысл. Потому что она всегда составляет 100 %.

Машины видят и слышат всех. Ну почти всех.

-2

БОЛЬШОЙ КУСОК ДАННЫХ

Роботов для анализа контента в интернете придумали не вчера. Когда в 1990-е годы стало ясно, что Всемирная сеть не похожа на библиотеку со строгим каталогом и алфавитным указателем, появились поисковые системы.

Пробуем загуглить ключевые слова нашей PR-кампании, и видим лишь пару статей на информационных сайтах. Неужели нашими текстами никто не поделился, не похвалил и не обругал?

Дело в том, что поисковая выдача — ​лишь верхушка айсберга. Поисковики анализируют статичный контент сайтов. Пользовательские сообщения, будь то посты в соцсетях, записи на форумах или отзывы в товарных карточках, не индексируются поисковиками. На то есть несколько причин.

  • Во-первых, социальные сети не пускают к себе пауков поисковых систем и даже выстраивают от них программную защиту.

Пользовательский контент для соцсетей — ​ценный коммерческий ресурс, которым никто не станет делиться бесплатно.

-3
  • Во-вторых, пользовательские сообщения — ​это не просто текст, это еще и комментарии, вложения, множество метаданных, таких как лайки и геометки.

Поисковики не работают с такими сложно структурированными данными. Задача поисковой системы — ​выдать полезную подборку, как правило, текстовых материалов с сайтов, ранжируя их по релевантности запросу.

  • Есть еще и «в-третьих». Индексировать материалы сайтов по ключевым словам — ​вовсе не то же самое, что хранить все сообщения целиком, да еще анализировать их содержание и настроение.

Как ни парадоксально это звучит, от такого объема информации поперхнулся бы даже Google.

А Brand Analytics не поперхнется. В базе данных компании уже хранится 180 млрд единиц контента — ​похвал, жалоб, шуток, споров, мемов. Российские соцсети предоставляют Brand Analytics доступ к своему контенту на договорных условиях. С зарубежными работа строится через API*.

Возможности Brand Analytics позволяют не только читать тексты, но и расшифровывать речь из видеороликов, распознавать слова на картинках. Последнее весьма ценно, учитывая последний тренд писать скриншотами. Среди 15 петабайт (миллионов гигабайт) данных компании можно найти реальное мнение людей практически по любому вопросу.

*API — ​описание способов, которыми одна компьютерная программа может взаимодействовать с другой программой.

-4

ЛЮБОВЬ И НЕНАВИСТЬ

По оценкам Brand Analytics, пользователи соцмедиа упоминают крупные компании вроде банков или магазинов одежды десятки тысяч раз в сутки.

Даже целая армия модераторов не справилась бы с анализом такого объема сообщений. Разработчикам сервиса пришлось научить роботов понимать написанное: например, отличать комплименты от проклятий.

В начале тональность текстов измеряли с помощью алгоритмического лингвистического анализа. В любом языке есть законы, определяющие, как слова в предложении взаимодействуют друг с другом, как влияют на смысл написанного пунктуация и орфография.

Лингвисты сводят все многообразие языка к набору формул, толковых словарей и правил чтения, которым можно научить компьютер.

  • Опираясь на законы лингвистики, программа оценивает настроение каждого сообщения и ставит ему в соответствие значение тональности: негатив, нейтральность или позитив.

Подобные алгоритмы появились на рынке еще в 2000-е и давали приемлемую точность распознавания настроения для простых ситуаций, например грамматически правильных текстов СМИ. Потом алгоритмы адаптировали для разговорного русского языка, практикуемого пользователями соцсетей.

-5

В последнее время для определения тональности все чаще применяют нейросети. Однако работы языковедам только прибавилось: ​теперь они составляют наборы данных (датасеты) для обучения нейросетей.

  • Для того чтобы научить машину отличать хороший отзыв от плохого, специалисты вручную размечают эмоциональную окраску в тысячах сообщений.

По словам технического директора Brand Analytics Григория Островского, сложнее всего составить грамотное техническое задание на разметку. В компании работают семь экспертов по русскому языку, прекрасно знакомых с потребностями клиентов.

Самой разметкой сообщений для последующего обучения нейросети занимаются десятки внештатных специалистов.

-6

ПУЛЬТ УПРАВЛЕНИЯ БИЗНЕСОМ

Нейросети, лингвистика, базы данных — ​звучит устрашающе сложно. Однако для пользователя система Brand Analytics — ​это реально простой и удобный инструмент с понятным интерфейсом.

Отсортируем сообщения по тональности. Внимание: на вершине списка оказалось сообщение с красной меткой — ​пользователь ругается.

Действуем незамедлительно: направляем к недовольному клиенту «пожарную команду», чтобы разобраться с недоразумением. Практика показывает, что человек, проблему которого оперативно решили, нередко превращается в лояльного клиента и приводит за собой еще нескольких покупателей.

-7

Делаем сортировку по вовлеченности и ищем самых влиятельных фанатов и хейтеров, ​последних у «Цифрового океана» пока нет. Речь идет о людях, мнение которых вызвало максимальный отклик в сердцах других пользователей. С ними стоит познакомиться и поработать индивидуально.

Наш публичный образ виден в системе как на ладони. Информация о журнале течет по сети и ветвится, словно река. Видим активность с неожиданной стороны: о «Цифровом океане» пишут в «Аграрном вестнике Алтая», в «Сообществе борт­ников и пчеловодов Алтая», в других СМИ, группах и чатах по региону. Две недели назад издание участвовало в Алтайском экономическом форуме, именно там о нас узнали местные профессионалы. Такие «неожиданные встречи» помогают брендам (в данном случае нам) находить новую аудиторию для своих продуктов, дают ценные каналы обратной связи.

-8

Для топ-менеджеров полезны краткие аналитические отчеты, или дашборды, которые формирует Brand Analytics. Это своеобразный пульт управления бизнесом. Здесь отображаются ключевые показатели эффективности: уровень внимания пользователей (количество сообщений), их вовлеченность (число лайков, комментариев и репостов), а также индекс лояльности, рассчитанный на основе тональности сообщений.

  • По показателям отчета можно в реальном времени отслеживать положение бизнеса среди конкурентов, находить проблемные места у продукта или в коммуникациях, а также быстро решать внезапно возникающие репутационные проблемы.

За кажущейся простотой интерфейса скрывается огромный вычислительный ресурс компании. Тарификация сервиса зависит от количества сообщений, собираемых и исследуемых в месяц в интересах клиента.

Используя старшие тарифы Brand Analytics, можно создавать рейтинги общественных институтов, узнавать мнение людей по ключевым социально-политическим вопросам. Можно даже отслеживать реакцию публики на выступление первых лиц и в реальном времени корректировать повестку спикера. Компания на постоянной основе работает с многими госструктурами.

В Brand Analytics уверены, что государство должно реагировать на проблемы людей так же быстро и эффективно, как это делает бизнес.

...............................................................................................................................

ПО ЛОКОТЬ В БУДУЩЕМ ТЕСТ-ДРАЙВ ХИРУРГИЧЕСКОГО РОБОТА DA VINCI НА ЖИВОМ ПАЦИЕНТЕ

...............................................................................................................................

Читайте новости про технологии и цифровизацию на нашем онлайн-портале digitalocean.ru и в соцсетях:

▪️ Telegram: t.me/digitaloceanru

▪️ Вконтакте: vk.com/digitalocean_ru

▪️ Яндекс.Дзен: zen.yandex.ru/digitalocean

▪️ YouTube: bit.ly/digitalocean_youtube

Для фанатов хрустящих страниц, пахнущих типографской краской — доступны все номера печатного «Цифрового океана» на Озоне: bit.ly/digitalocean_ozon

Закажите любой номер со скидкой больше 50% прямо сейчас!