11 тыс подписчиков

Мне кажется, алгоритм Яндекс.Дзен — это двусторонний фильтр

4 апреля 20184 апр 2018

1546

4 мин

Почему Яндекс.Дзен любит низкосортные материалы По крайней мере именно такими я считаю все эти статьи, которые напоминают обрывки из мыльных опер или желтой прессы 90-х (хотя может она и сейчас такая же — не знаю). Алгоритм Дзена — самообучающаяся система. Для обучения такой системы нужен большой объём данных. Обработав данные, система пытается предугадывать решения пользователей (нравится/не нравится) по новым статьям и текстам. Данные дзену — тексты — поставляют авторы. Но одновременно со статьями авторов-одиночек в систему попадает ещё и множество статей с сайтов подобных Пикабу — т.е. там, где огромное количество контента генерируется пользователям, а качество этих статей колеблется на уровне от «гoнвo полное» до «автор пеши исчо», но чаще всего — это типичная «xpень какая-то». Сразу оговорюсь, что я с уважением отношусь к проекту pikabu.ru, и считаю, что его создателям удалось сформировать уникальное пикабушное сообщество. Итак, что у нас есть? Есть огромные поставщики контента

Оглавление

Почему Яндекс.Дзен любит низкосортные материалы
Простая математика
Дзен отфильтровывает читателей!

Почему Яндекс.Дзен любит низкосортные материалы

По крайней мере именно такими я считаю все эти статьи, которые напоминают обрывки из мыльных опер или желтой прессы 90-х (хотя может она и сейчас такая же — не знаю).

Алгоритм Дзена — самообучающаяся система. Для обучения такой системы нужен большой объём данных. Обработав данные, система пытается предугадывать решения пользователей (нравится/не нравится) по новым статьям и текстам.

Данные дзену — тексты — поставляют авторы. Но одновременно со статьями авторов-одиночек в систему попадает ещё и множество статей с сайтов подобных Пикабу — т.е. там, где огромное количество контента генерируется пользователям, а качество этих статей колеблется на уровне от «гoнвo полное» до «автор пеши исчо», но чаще всего — это типичная «xpень какая-то». Сразу оговорюсь, что я с уважением отношусь к проекту pikabu.ru, и считаю, что его создателям удалось сформировать уникальное пикабушное сообщество.

Итак, что у нас есть? Есть огромные поставщики контента вида «хрень какая-то» и и единичные статьи авторов, которые, конечно, тоже могут быть самыми разными. Но...

Простая математика

Дано:

Автор пишет 1 - 2 статьи в день.
Пикабу (условный) поставляет в дзен 50 статей в день
Читателей — 100 человек, каждый из которых читает и оценивает 2-3 статьи.

Вопрос: На каких статьях будет обучаться алгоритм Яндекс.Дзен?

Вопрос №2: Какие статьи будет считать качественным алгоритм Яндекс.Дзен, обучившийся на таких исходных данных.

Ответ: Яндекс.Дзен примет массовые статьи за эталон и будет именно такие статьи ранжировать выше. Если Ваша замечательная статья не будет соответствовать эталонной модели, то алгоритм просто не будет знать кому её показывать и... не будет её показывать кому-либо.

Дзен отфильтровывает читателей!

Что видит алгоритм?! Он видит множество однотипных статей, поскольку их больше, их чаще показывают на начальном этапе, а потом алгоритм просто считает, что такие статьи «лучше» и их надо показывать чаще.

Автор, который пишет в своём стиле, на свои темы, рассматривает новые вопросы — заранее пессимизирован. Алгоритм не знает, что с ним делать и «дарит» его статьям 2 - 3 тысячи показов.

Более «опытный» автор смотрит «что заходит» и начинает писать на те же темы, копировать стиль, подстраиваться под эталон. А «более опытный» просто занимается рерайтом-копипастом, получая в результате больше просмотров чем первоисточник. Не потому, что талантлив и смог написать лучше, а потому что на оригинальной статье алгоритм научился и знает, что копия зайдёт на ура. Получается, что воровство материалов в Дзене является следствием того, как работает алгоритм! Более того, воровство обречено на успех!

Что происходит с автором, который написал уникальную интересную, но незнакомую алгоритму статью? Он отфильтровывается: либо он пишет на протяжении долгого времени и ждёт, когда же дзен на нём чему-то научится и тогда тут же встречается с «опытными авторами», либо... он сам становится «опытным автором» и начинает подстраиваться под систему, пытаясь понравиться алгоритму.

Чёрт возьми! Моя статья должна нравиться людям, а не какому-то неразумному алгоритму! Но как она пробьётся к читателям, если её забраковал алгоритм?!

И самое смешное, что эта ситуация приводит к тому, что происходит естественный отбор читателей. Читателю приходится продираться через кучи однотипных материалов, которые нравятся алгоритму. Интересно сколько читателей удаляют приложение дзен или перестают заходить на zen.yandex.ru?

Нужны примеры?

Я как-то писал про канал Encaro. Это канал для автолюбителей, на котором учился алгоритм Дзена. Канал растащили на статьи «опытные» авторы, а новые статьи на исходном канале с трудом набирают 1000 просмотров.

Вот ещё один пример — канал Автоспорт. Это то, чем я никогда в жизни не увлекался, но, если сравнивать статью «Для чего в ралли нужен штурман» и статью «Двойная ловушка гаишников на одной улице. Как знаки приводят к лишению прав. Личный опыт», то я определённо выбрал бы первую.

Каждый водитель, с удовольствием бы прочитал эту статью, чтобы понять зачем вообще в машине штурман!

Проблема в том, что этого не понимает алгоритм. У него есть типовая модель про штрафы и подставы на дорогах, и он отлично эксплуатирует её — такие статьи набирают просмотры. Но как появляется уникальная, новая статья, не вписывающаяся в привычные рамки, то эта статья плетется еле-еле.

Конечно, есть надежда, что рано или поздно статья станет таким же эталоном. Только просмотры по ней получит... следующей автор, может даже из числа «опытных».

Первым быть плохо

Получается, что первым быть плохо — плохо придумывать что-то новое, писать интересно, ставя эксперименты со стилем и оформлением. Алгоритм не знает, что делать с такими статьями и ждёт пока их станет много. В итоге вместо того, чтобы попытаться научиться показывать эту статью как можно большему числу пользователей, он идёт по простому пути тиражируя однотипные, украденную друг у друга статьи, формируя сообщество из читателей, которые готовы потреблять этот контент.

Марк Твен не стал бы здесь известным, а само слово дзен скоро станет таким же нарицательным, как и одноклассники и будет характеризовать определённую категорию «потребителей контента» (не читателей, заметьте!).

Что же делать?

Надеяться. Но не забывать по остальные платформы.

Друзья, вы же помните, что дзен работает на лайках и подписках?
Тогда, действуйте!

Старые комментарии здесь

IT (информационные технологии)

5,67 млн интересуются