Решил и я ненадолго отойти от более привычной для меня сатирическо-иронической публицистики и переключить своё внимание на чехарду с тематическими тегами. Коль пошла такая пьянка (да, алгоритм, смело ставь тег “деревня”, я знаю, тебе хочется), то надо бы продолжить каскад тематических публикаций. Я планировал написание этой статьи многим позже, но решил её накидать сейчас, поддержать товарищей по цеху – Якова Парамоновича и, собственно, Дзенофоба. И в данном случае, я попытаюсь несколько оппонировать последнему и попробовать как-то убедить первого, что даже расстановка тегов не может быть ему конкурентом в генерации перманентного бреда (с).
Многих всё больше интересует, по какому принципу расставляются тематические теги, кто их проставляет и влияет это вообще на что-то.
Некоторым за тегами, возникающими под публикацией, видится шаловливая рука обитателя Яндекс. Толока. Что, дескать, это всё результат вмешательства человеческого фактора. Кому толокер, проверяющей публикацию, попадётся ответственный, тому проставят теги правильно, а кому халявщик или приколист, тому расставят какую-то белиберду. Вообще, ввод вручную тематических тегов под публикацией возможен – путём выбора наиболее подходящих из имеющейся базы тегов (там тысячи тегов, которые регулярно пополняются). Но это требует смыслового погружения в текст публикации, а не его поверхностной проверки на предмет шок-контента или кликбейтных заголовков. Плюс к тому, нужно оперировать именно тегами, имеющимися в базе. Знать их. Чтобы проставлять, к примеру, тег “Молоко”, нужно предварительно внести его в общую базу тегов. Если взять публикации канала “Журнал Яндекс. Дзена”, то мне почему-то кажется, что там проставляют тематические теги сами модераторы, имеющие доступ к системе Дзена, по крайней мере, к базе тегов и к механизму их добавления (в базу), точечного проставления на публикации. Но на всех модераторов не напасёшься, а загружать ещё больше толокеров слишком хлопотно. Им какие-то копеечки тоже надо платить. Да и тормознуло бы это поток публикаций дополнительно перед откруткой в Ленте, если каждую публикацию обрабатывать полностью вручную. А ведь публикаций могут быть десятки тысяч в день! Очередь из-за ручной расстановки тегов образовалась бы очень значительная. Поэтому это отдали на откуп алгоритму автоматической проверки текста, который сканирует всё содержание публикации и выводит теги.
Автор: Дмитрий Туманов
Продолжение следует…
ПС. К тегу "Москва":
Вот более правильные данные: