Найти тему
Минус фунт

313. Эксперты Яндекс.Кью – как распределены их рейтинги?

Яндекс.Кью - это сервис вопросов и ответов, люди обмениваются знаниями и помогают друг другу. Самые уважаемые знатоки получают звание эксперта, а поскольку пользователи сервиса отмечают прочитанные ответы лайками и дизлайками, эксперты ранжируются по величине полученных баллов. При этом баллы суммируются и вычитаются, оттого не удивительно, что у некоторых экспертов сумма баллов нулевая и даже зашкаливающе отрицательна.

Это вряд ли означает, что эксперт никудышный - люди просто любят, когда им говорят приятное, и не все любят выслушивать правду. Во всяком случае, нам неизвестно, чтобы администрация сервиса каким-то образом ограничивала экспертов с отрицательным рейтингом.

Раз есть рейтинги, то неизбежно и ранжирование по баллам. Это хорошо знают студенты вузов, где принята рейтинговая система оценки знаний. Отношение к этой системе разное, но в том, что она побуждает студентов работать и посещать занятия, активно выступать на семинарах, сомнения нет. (После почти года дистантного обучения замечание неуместное, но нормализуется же все когда-нибудь).

Раз есть рейтинги, то существует и их распределение. На память первым делом приходит самое знаменитое, распределение Гаусса, или нормальное. Гауссово распределение лихо применяют там, где оно совершенно неприменимо; ни одна защита кандидатской диссертации по педагогике или психологии не проходит без представления распределенных по нормальному закону результатов, доказывающих превосходство предложенного соискателем метода над всеми ранее существовавшими.

Все оттого, что под гауссово распределение разработан математический аппарат и существует масса приложений, вычисляющих параметры данного распределения. Хотя, по факту, соискатели ничего сами не считают - за них это делают студенты 3 курса мехмата или физмата.

Но существует и другое распределение, не менее знаменитое, чем гауссово - это распределение Ципфа, оно же распределение Парето. О распределении Ципфа мы упоминали в другой нашей статье, советуем с ней ознакомиться в качестве введения в тему.

Гауссово распределение хорошо работает на объектах физического мира. Ниже, в качестве примера, распределение роста людей.

-2

Кривая гауссова распределения имеет симметричную колоколообразную форму, сразу узнаваемую по построенному графику. Впрочем, окончательное подтверждение того, что распределение гауссово, требует математических расчетов.

Распределение же Ципфа царит в области социальных переменных. Ципф открыл свой закон на литературных текстах на английском языке, а затем проверял на соответствие закону всевозможные иные данные. По закону Ципфа распределяются размеры городов, размеры доходов людей и пр. переменные.

В последующем закон Ципфа был уточнен Б. Мандельбротом и Е. Ворончаком, каждое уточнение требовало введения еще 1-2 параметров к первоначальному, предложенному Ципфом, выражению.

Итак, исследуем распределение рейтингов экспертов Яндекс.Кью. Из общего числа экспертов (1840) исключаем экспертов с отрицательным и нулевым рейтингом, после чего строим график рейтинга оставшихся 1481 эксперта.

-3

Данное распределение никак на нормальное не похоже, как вариант остается ципфово. Ципфово распределение принято изображать с логарифмическим масштабом по обеим осям,сделаем так и мы. То распределение, наиболее простое, с минимумом параметров, которое Ципф получил на английских текстах, изображается на таких графиках прямой линией.

-4

Фактические данные - синяя линия. Анализ и наилучшее приближение фактических данных модельными (красная линия) показывают, что данные следовали бы зеленой прямой линии, если бы распределение было строго "по Ципфу"". Фактические данные ближе всего к зеленой линии в области рангов порядка 30. Левее распределение регулируется поправкой Мандельброта, в языке поправка Мандельброта отражает степень синтетичности языка. В языках аналитического строя, наподобие английского, поправка равна 0. В русском языке она порядка 2-3, в еще более синтетических языках (тюркских) она еще выше.

Для распределения экспертов поправка Мандельброта оказалась равной 3,1; это достаточно типичное для социальных распределения значение.

В правой части распределения данные уходят вниз, что регулируется поправкой Ворончака. Мы ввели ее, чтобы модельное распределение соответствовало фактическому.

Что же касается наклона зеленой линии, то наклон в распределении текстовых слов отражает степень творческости автора, или, по Мандельброту, степень формализованности языка автора. Чем это значение меньше 1, тем автор более творчески подходит к генерации текстов, тем богаче его словарный запас, и тем чаще он употребляет в тексте редкие слова. Текстам же, написанным сухим "канцеляритом", свойственно значение показателя, большее 1.

По данному распределению этот коэффициент равен 0,89, "автора" можно считать творческой личностью. Но "авторы" данного распределения не эксперты, а пользователи, креативно подходящие к оценке экспертов доступным им способом - лайками и дизлайками.

Ну и в заключение - на графике между красной модельной и фактической синей линией, достаточно тесно прилегающими на всем протяжении оси рангов, зияет просвет в диапазоне рангов 100-300, отмеченный заливкой желтым цветом. Это так называемый "кратер", дальнейшее уточнение закона Ципфа для смешанных текстов, составленных из текстов разной тематики, на существование которого впервые обратил внимание В. Кромер.

Для случая распределения экспертов наличие кратера придется приписать тому, что ряд экспертов работает по разным направлениям, давая ответы на вопросы разной тематики.

Вот, пожалуй, и все.

Да, еще сделаем привязку к знаменитому "принципу Парето" 80/20. Сумма рейтингов всех 1481 эксперта (по модельному распределению) 846745. 20% от числа экспертов - это 0,2*1481 = 296. Сумма рейтингов первых 296 экспертов равна 782667. Итого, 20% экспертов набирают 100%*782667/846745 = 92% всех баллов.

-5

Не совсем принцип Парето (согласно которому они должны были бы набрать 80% всех баллов), но принцип Парето в том виде, в каком он декларируется, выполняется редко, важен сам факт, что меньшая часть работников выполняет бóльшую часть работы, и наоборот. А здесь так оно и есть.