241,8 тыс подписчиков

Что такое контентный спам: Александр Соболь объясняет на примерах котиков и русских туристов

26 августа 201926 авг 2019

16,2 тыс

6 мин

Продолжаем развенчивать мифы о работе платформы.

Оглавление

Авторы постоянно спрашивают нас о контентном спаме и винят в том, что администрация несправедливо пессимизирует их посты. Чтобы прояснить ситуацию, мы попросили директора Яндекс.Дзена по работе с партнерами Александра Соболя подробно рассказать, чем контентный спам отличается от текстов на узкую тему и попыток написать книгу, прижился бы на платформе «Камень в лесу» и какие материалы нам хочется видеть в Дзене.
Краткая история контентного спама в Дзене
Другие яркие примеры

Авторы постоянно спрашивают нас о контентном спаме и винят в том, что администрация несправедливо пессимизирует их посты. Чтобы прояснить ситуацию, мы попросили директора Яндекс.Дзена по работе с партнерами Александра Соболя подробно рассказать, чем контентный спам отличается от текстов на узкую тему и попыток написать книгу, прижился бы на платформе «Камень в лесу» и какие материалы нам хочется видеть в Дзене.

Контентный спам — материалы, которые содержат автоматически сгенерированные или написанные по шаблону тексты, большие объемы однотипных изображений, многократное размещение одной и той же переработанной публикации и так далее. Такие материалы, внешне напоминающие уникальный контент, по сути являются обманом пользователя и спамом.

(из правил Яндекс.Дзена)

Краткая история контентного спама в Дзене

В одной из прошлых колонок я уже рассказывал, как в Дзене ввели ограничения для контентных спамеров. Напомню эту историю и добавлю несколько важных деталей.

Мы — платформа, которая платит авторам популярных публикаций. Естественно, те, кто приходит сюда для заработка, пытаются нащупать тему и подачу, которые понравятся аудитории, чтобы потом снова и снова повторять свой успех. Это правильная логика, но есть авторы, которые поступают не совсем честно. Они берут историю, которая «выстрелила», переписывают ее, слегка изменив детали, перепридумывают заголовок и выпускают материал как новый. Или пытаются эксплуатировать одну и ту же читательскую эмоцию. Например, увидев, что статья про бедного котенка, которого сняли с дерева, получила хорошие охваты, создают серию душераздирающих публикаций про щенка, который залез в мусорный бак, бедную кошку, взятую из приюта, и так далее.

В какой-то момент по чатам авторов Дзена пошел слух, что читатели хорошо кликают на «жизненные истории», что-то типа «Свекр изменил супруге с подругой семьи» или «Свекровь выгнала невестку из квартиры». Каналы с такими историями стали плодиться и заполонили платформу, мы получали множество жалоб. Были и совсем вопиющие случаи: когда мы только начинали борьбу с контентным спамом, нам попадались авторы, которые генерировали контент автоматически с помощью ботов и других технических решений.

Когда впервые видишь подобную публикацию в ленте, ее легко принять за обычный материал. Но если зайти в канал автора, становится очевидно, что он создает десятки полностью выдуманных и зачастую не очень хорошо написанных историй, не имеющих ни литературной, ни какой-либо другой ценности. Кажется, для самих владельцев каналов это тоже не дело жизни и точно не хобби, а исключительно способ легкого заработка. Мы не раз замечали, что после ограничения показов таким каналам их часто просто перестают вести.

Алгоритм показывает пользователям то, что они читают охотнее всего. Если мы постоянно реагируем на статьи про плачущих котиков, мы обречены читать их вновь и вновь, и это не уязвимость платформы, а наша человеческая слабость. При этом Дзен понимает, что рано или поздно однотипные статьи про животных в ленте наскучат даже их самым преданным фанатам. Поэтому мы приняли решение ограничивать показы каналам, которые создают контентный спам. Мы долго обучали алгоритм определять повторяющиеся речевые конструкции и сюжетные ходы и год назад ввели ограничительное правило.

Важно!

Дзен не банит каналы с контентным спамом.

На платформе возможны три модели дистрибуции статей:

✔️приоритетные показы (модель доступна авторам из «Нирваны»)

✔️расширенные показы (алгоритм оценивает тему и качество материала и показывает его тем, кому он интересен)

✔️показы по подписке (статьи видят только подписчики канала; модель используется для авторов тем из категории «18+», создателей контентного спама и т. д.)

Если автор систематически публикует контентный спам, его канал видят только подписчики.

Другие яркие примеры

Статьи, где бесконечно повторяются однотипные советы. Например, «Как избежать штрафа от ГИБДД». Как правило, это переписанные в разных вариациях истории типа езды по встречной полосе или рассказы про сломанные тестеры для определения степени опьянения водителя.
Статьи про национальные стереотипы. Есть авторы, которые специализируются на материалах вроде «Чем русские туристы не нравятся англичанам?», «Чем русские туристы не угодили испанцам?», «Как отвратительно русские ведут себя в Турции!» и так далее. Как правило, одни и те же причины не любить россиян кочуют из материала в материал.
Обзоры товаров. Бесконечные подборки вещей с «Алиэкспресса» и из «Фикспрайса»: одни и те же предметы кочуют из списка в список.
Рецепты невероятной шарлотки. Каналы которые состоят из одного и того же рецепта, переписанного сотни раз.
Новости о болезни, смерти и похоронах Юлии Началовой. Контентный спам — проблема не только авторов, но и медиа. Чтобы собрать максимум трафика, они выбирают громкий инфоповод и генерируют на его основе десятки статей с новыми малозначительными подробностями.

Конечно, есть каналы, где повторы — часть концепции. Например, автор блога «Девушка, привет» сочиняет письма разным девушкам и публикует их с одной и той же картинкой на черной карточке. Но темы текстов там всегда разные. Если бы автор условного «Камня в лесу» — паблика, где каждый день появляется пост «сегодня ничего не произошло» — решил завести канал в Дзене, его публикации, скорее всего, не попали бы в расширенные рекомендации. При этом он мог бы набрать подписчиков, рекламируя канал на других платформах, и использовать Дзен только как хостинг для своего контента. Впрочем, конкретно этот канал, вполне вероятно, мог бы пройти фильтр: его концепция изначально не имеет ничего общего с контентным спамом.

Как мы находим нарушителей

В Дзене есть роботы, которые умеют выделять в текстах «смысловые группы» и понимать, насколько они похожи между собой. Грубо говоря, алгоритм быстро замечает, что в канале все тексты об одном и том же, но разными словами. Впрочем, как говорил Борхес, в мировой литературе существует всего четыре архетипических истории, поэтому глобально повторения неизбежны. Контентный спам — серьезный челлендж для модерации, ведь тут может возникать много пограничных ситуаций.

Например, алгоритм может выявить, что в канале часто повторяются имена и сюжетные конструкции, а потом на контент посмотрит модератор и поймет, что автор просто пишет роман и каждый день публикует в Дзене по новой главе. Поэтому решения об ограничении показов принимает не один алгоритм, а человеко-машинный комплекс, состоящий из роботов, асессоров, классификаторов и модераторов.

Конечно, наша система не идеальна, и иногда случаются ошибки. Но мы стараемся их быстро устранять и постоянно совершенствуемся.

Почему мы не любим контентный спам

Дзен обладает суперспособностью: здесь множество людей получают бесплатный трафик. Это накладывает на платформу большую ответственность: рекомендация в вашей ленте — это рекомендация Дзена. Поэтому мы хотим, чтобы статьи, на которые вы кликаете, были информативными, интересными и качественными, и поддерживаем авторов, которые создают материалы на основе уникального опыта или экспертного мнения.

Контентный спам часто вызывает негативную реакцию пользователей: дизлайки, плохие комментарии, жалобы и — самое критичное — нежелание возвращаться на платформу. Так происходит, потому что авторы, которые эксплуатируют одну и ту же тему, не стараются: вся их надежда на то, что алгоритм каждый раз будет показывать их материалы новым читателям, а те будут кликать из любопытства или по незнанию. Впрочем, как я уже сказал, контентный спам — не повод для блокировки. Вы можете, если хотите, писать бесконечные однотипные истории, но только для своих подписчиков. Расширенные показы — бонус, который мы даем хорошим авторам, а не наша обязанность перед всеми блогерами. Мы много работаем над тем, чтобы бороться с обманом читателей и некачественным контентом, и не планируем останавливаться.

Дзен в Дзене

596 интересуются