6716 подписчиков

Загадка ЯДовитого свинкса: как присваиваются теги?

19 мая 201919 мая 2019

285

2 мин

Не торопитесь писать изобличающий комментарий, указывая на ошибку в названии, ее там нет. Сфинксы — древние мифические существа с телом льва, крыльями орла и головой человека — мудрые и коварные. Их загадки умны и имеют глубокий философский смысл. Они охраняют великие тайны или несметные богатства. Самые известные – египетский, охраняющий пирамиды, и греческий, загадавший загадку Эдипу. Свинксы — уже современные виртуальные зооморфы. Мозг молочного поросенка придает их загадкам нечеловеческую алогичность, а неприкаянная душа морской свинки способствует частой смене условий задачи. Их еще называют алгоритмами. Теги — пойдем от противного Вопрос формирования тегов на статьи возникал у нас на канале неоднократно. И это понятно, т.к. это самое бросающееся в глаза указание на несовершенство существующих в Дзене подходов. Именно подходов, а не алгоритма. Потому-что объяснить чудовищные ошибки в присвоении тегов несовершенством алгоритма невозможно – машина в отличие от человека всегда логи

Оглавление

Теги — пойдем от противного
Почему алгоритм присваивает странные теги?
Почему именно эта гипотеза?

Не торопитесь писать изобличающий комментарий, указывая на ошибку в названии, ее там нет.

Сфинксы — древние мифические существа с телом льва, крыльями орла и головой человека — мудрые и коварные. Их загадки умны и имеют глубокий философский смысл. Они охраняют великие тайны или несметные богатства. Самые известные – египетский, охраняющий пирамиды, и греческий, загадавший загадку Эдипу.

Свинксы — уже современные виртуальные зооморфы. Мозг молочного поросенка придает их загадкам нечеловеческую алогичность, а неприкаянная душа морской свинки способствует частой смене условий задачи. Их еще называют алгоритмами.

Теги — пойдем от противного

Вопрос формирования тегов на статьи возникал у нас на канале неоднократно. И это понятно, т.к. это самое бросающееся в глаза указание на несовершенство существующих в Дзене подходов.

Именно подходов, а не алгоритма. Потому-что объяснить чудовищные ошибки в присвоении тегов несовершенством алгоритма невозможно – машина в отличие от человека всегда логична.

Взяв за основу последний тезис, перестав ломать голову над вопросом "каким образом?", мы начинаем смотреть на проблему не изнутри, а сверху, задаваясь вопросом "почему?".

Почему алгоритм присваивает странные теги?

Единственная гипотеза, которая на мой взгляд способна прояснить вопрос, состоит в том, что теги присваиваются не на основе анализа контента, а исходя из поведения пользователей.

У каждого пользователя в Сети есть своя история на основе которой ему присваиваются интересы. Грубо говоря, это теги которые есть у нас в профилях. Когда алгоритм начинает лить показы на статью, то он (по моему мнению) анализирует поведение читателей не только на предмет действий, но и сравнивая эти действия с их интересами.

Поясню по-пунктно:

1. У меня вышла статья посвященная Яндекс.Дзен.

2. До того, как начать показы, алгоритм изучает ее по разным параметрам, в том числе присваивает ей тематику. В нашем случае "Яндекс.Дзен".

3. Исходя из присвоенной тематики, статья начинает прокручиваться людям в интересах которых есть "Яндекс.Дзен" (те самые пресловутые теги в профиле).

4. Анализируя поведение пользователей на статье, алгоритм выделяет наиболее успешные вторичные теги. Т.е. пользователи с какими тегами больше всего заинтересовались статьей? (Понятно, что "Яндекс.Дзен" не в счет, т.к. этот тег есть у всех.)

5. Самые успешные теги присваиваются статье.

Таким образом на статье о Яндекс. Дзен появляется единственный тег — "Природа", т.к. только он заметно выделялся положительными факторами.

Схематически это выглядит так:

Почему именно эта гипотеза?

Во-первых, она хорошо объясняет идиотизм присвоения тегов, который любым другим способом объяснить невозможно.

Как бы примитивен не был алгоритм, какие бы "двоечники" не были программисты, присвоить тег "Ислам" статье про собственных кошек мог только воинственный скин ... или алгоритм увидевший, что лучшее поведение на статье продемонстрировали мусульмане.

Во-вторых, похоже алго анализирует и поведение по географической привязке. Поэтому, если вдруг неожиданно брянчане, показывают выдающийся ПФ на статье, то ей присваивается тег "Брянск", хотя о самом городе нет ни слова.

В-третьих, как мы знаем теги присваиваются не сразу, а иногда и меняются, если статья ожила по второму кругу. Это явное указание на то, что анализ проводится на основе поведения пользователей, а не по контенту.

Вот как-то так)