6791 подписчик

Качество публикаций – кармическая категория взрывающая мой мозг

5 минут

194 прочтения

18 декабря 2018

Несколько недель пытаюсь найти общие закономерности оценки качества публикаций в Карме. Ну как недель? Каждый понедельник, после очередного обновления кармы, во мне просыпается страсть к исследованию этой категории, которая затухает часа через два, до следующего понедельника. В общей сложности можно говорить о 10-12 часах непрерывной работы и изучении порядка 20-30 каналов (помимо собственных пяти).

Качественная публикация

Качественными мы считаем публикации с уникальным текстом и использованием собственного фото- и видео-контента.

Что же привлекательного в этой кармической категории?

Во-первых, это единственный параметр который оценивает лично нас, как авторов. Все остальные – технические.

Во-вторых, как нам поют с высоких трибун, и это я не о Госдуме, качество текстов – основной маркер продвижения статей/каналов в топы.

Ну и в конце концов, это оскорбляет личное достоинство – когда за свои мысли, выложенные в текстовом виде, получаешь 6-8-10 баллов, что равноценно тройке.

Алгоритм, который взрывает мозг

Первое, что бросается в глаза при изучении вопроса это то, что даже указанный в описании параметр совершенно не влияет на оценку качества публикаций. Приведу примеры своих каналов:

1. Дзенофоб: текст и картинки уникальны (заглавная обладает относительной уникальностью, т.к. повторяется от темы к теме) — 16 баллов;

2. Узкотематический дневник с уникальными текстом и фото: 11 баллов;

3. Широкая непопулярная тематика с уник. текстом и уникализированными картинками: 14 баллов;

4. Дурацкий, сверхуникальный канал с уникальным языком,мыслями и рисунками: 10 баллов;

5. Канал рейтингов с рерайтом и 100% не уникальными картинками (причем их много): 13 баллов.

Как мы видим уникальность не имеет ни малейшего значения. Даже похоже наоборот, каналы с не совсем уникальными материалами, по крайней мере визуальными, получают больше баллов, чем 100% уники (2 и 4).

Чем же оперирует алгоритм определяющий качество текста?

Анализ работы алгоритма

1.Как человек не совсем далекий от разработки подобного рода программ, по сути мало отличающихся от обработки статистических данных, я задумался, какие бы переменные могли стать наиболее значимы, если я сам составлял алгоритм вычисления качества контента. У меня получились такие:

1. Уникальность текста (текстовая и идейная).

2. Разнообразие используемых слов.

3. Объем текста.

4. Соответствие заголовка контенту.

5. Структурирование статьи (разбитие на подзаголовки с использованием тегов H3 и H3).

6. Украшение текста (применение осмысленных выделений текста и цитат).

7. Уникальные фото и видеоматериалы.

8. Ссылки на официальные государственные источники.

Пунктов можно набросать больше, но по-моему для технической обработки контента этого вполне достаточно. Каждый из параметров легко определяется алгоритмически и может быть представлен в цифровом виде. Остается связать их в одну формулу, задав коэффициенты соответственно их важности.

Предположив такой подход, как наиболее простой и открытый, я стал изучать каналы находящиеся на топовых позициях, вполне естественно предполагая, что имеющие высокие показатели кармы, они, и по "качественности публикации" находятся на высоте.

Однако был разочарован. Конечно это были не статьи от Эллочки-людоедки, там предложения посложнее. Да и используемых слов было чуть больше 30. Но Эллочка несомненно могла занять середину Дзеновского топа. Мне кажется, что алгоритм даже влюбился бы в девицу, а ее "Не учите меня жить", мог бы стать девизом менеджмента Дзена.

Представьте себе как органично бы смотрелись встречи, где выступающие менеджеры ограничивались, короткими фразами Эллочки, типа: "мрак", "жуть", "колоссально", "железно", "красота" и т.д., вместо долгих пустых речей означающих тоже самое. Сколько бы времени сохранили себе и слушателям.

Я это все к тому, что не смог отследить ни малейшей закономерности позиций в топе с вышеперечисленными маркерами.

2. Второй вариант, более сложный и глупый, но красиво звучащий, и позволяющий надувать губки, чувствуя себя небожителями. Речь о интеллектуальной машинной обработке текстов.

Это достаточно устаревший и не оправдавший себя способ, заключается в характерных структурных особенностях любого языка, которые позволяют его оцифровывать и обрабатывать. Проблема лишь в том, что это работает только для простых текстов написанных стандартным языком.

Мне поначалу показалось вот оно! Наконец я нащупал чем дышит определяющий качество контента алгоритм! Мы же видим, что простые односложные тексты отлично работают в Дзене, а сложные не получают показов.

Кто читает мои статьи, или комментарии под ними, должен знать, что 10 дней назад я открыл новый канал (кодовое название "дурацкий"). Открывал я его как экспериментальный, пытаясь выяснить именно рассматриваемый вопрос – использует ли алгоритм интеллектуальную обработку текстов? (Другое дело, что мне понравилось дурачиться и теперь я собираюсь выводить этот канал на монету).

Чтобы было понятно. Машинный интеллект легко "понимает" предложение, типа: "Мой мозг больше бараньего", тут стандартная простая структура. Но если я напишу: "Моя мозги барана больше", то он впадает в ступор. Программа не знает к какому из существительных относятся слова "моя" и "больше", для него это околесица и бред. А у меня на том канале почти все предложения в этом ключе.

Ясно, что если бы тексты обрабатывались машинным интеллектом, то мой канал получил кармическую единицу, а не десятку. Значит и этот вариант мимо.

3. Оставался последний, так любимый менеджментом Дзена вариант, с самообучающейся программой искусственного интеллекта.

Скажу сразу, в создание качественного продукта этого типа разработчиками Дзена я не верю. Хотя бы потому, что флагман этой разработки у головного Яндекса – Алиса – очень средненькая программа с явным недостатком, то ли технических средств для обработки больших объемов информации, то ли далеко не так обучаемая, как поют разработчики. В любом случае, существуя достаточно давно (с учетом частоты обращения к ней), она ни фига не становится лучше или адекватнее – все на том же начальном уровне.

У Дзена с ресурсами все намного хуже, как с людскими, так и техническими, а их база обучения основана не на среднем уровне пользователя, а на школоте из Толоки (да простят меня толокеры). Поэтому применять такой подход к обработке текстов это откровенная глупость. Да и мой экспериментальный канал был бы пессимизирован условным интеллектом толокера, как содержащий многочисленные грамматические, стилистические и синтаксические ошибки.

P.S. Создается впечатление, что "качество публикации", созданный искусственно параметр для ручного регулирования кармы. Значения до 10 даются автоматически за уникальность ( в том числе рерайт), от 10 до 15 – оценку формируют толокеры, 15-20 – оценка модераторов/менеджмента.

Естественно, любому каналу не прошедшему даже алгоритмической проверки, боссы могут дать 20 личным решением.