14 подписчиков

Что за рейтинг WN8 и как его считать? часть 1.

9 апреля 20199 апр 2019

1276

9 мин

Оглавление

Введение
Почему WN8?
Отличительные особенности WN8

Введение

WN8 является последней итерацией проекта WN* (WNx) от Praetor77.
WN8 стремится измерить наблюдаемый вклад в боях, по учетной записи, и, надеюсь, выводит некоторую информацию о скрытой переменной "мастерства". WN8 не должен рассматриваться как окончательная_и_не_подлежащая_пересмотру оценка мастерства. Он предназначен быть рассмотренным совместно с процентом побед (ПП), количеством боёв, средним уровнем техники и никогда не заменит оценку личной статистики, навыков командной игры или просмотр реплеев. Причиной этому является то, что при расчете WN8 не учитываются такие параметры как время боя, приоритет выбора целей, командная игра и способности принятия решений.

Почему WN8?

Как и во всех предыдущих рейтингах, в WN7 были некоторые недостатки и ограничения. Некоторые из них были известны на момент выпуска WN7, другие были обнаружены и обнародованы вскоре после этого. Ниже приведены основные из них, в порядке важности, по мнению команды WN*:
Оценка по соотношению урон/уровень - а именно, то, что уровень изменяется линейно от 1 до 10, а значения урона растут нелинейно. Кроме того, способность наносить урон для всех танков одного и того же уровня не одинаковая (сравните, например, T40 и А-20 или ARL V39 и M18).
Оценка по соотношению уничтожено/уровень - неопытные игроки, играют на низких уровнях, и, таким образом, уничтожать танки на 1 уровне легче, чем на 10, в предположении об одинаковом мастерстве игрока выше определенного порога.
Проблема 1-10 уровня — возникает в WN7 в связи с двумя уже рассмотренными моментами. Precambrian объяснил это очень хорошо в своем сообщении, которое хотя и несколько устарело, но очень хорошо передает суть проблемы, на небольшом, понятном примере. Ниже приведено это сообщение.

precambrian:
Что усложняет оценку, так это тот факт, что накручивать статистику на нижних уровнях легче, чем на более высоких, так как на низких уровнях, средний уровень мастерства новых игроков является крайне низким, а урон пушек низкого уровня, по отношению к прочности танков, позволяет опытным игрокам уничтожать их неопытных коллег без каких-либо затруднений. Это явление прекрасно иллюстрируется на автопушках 1-го уровня, которые могут уничтожить одноуровневого оппонента, прежде, чем новичок сможет повернуть башню и выстрелить в ответ. Такого рода разрушительный потенциал позволяет игрокам с относительно низким мастерством пробеждать при крайне малом количестве боев на уровне и раздувает их статистику. В WN7 была предпринята попытка учесть это штрафом для низких уровней; Однако его легко избежать, просто чередуя бои на более высоких уровнях с боями на низких уровнях.

Если вы возьмете среднее по отдельным значениям WN7 приведенных игр, то получите значение 2578. Однако, если рассчитать WN7 для этих игр вместе, то получите 3260 WN7! Есть несколько причин для этого. Одна связана с нелинейным характером изменения очков прочности по уровням - танк 8 уровня не имеет в 8 раз больше очков здоровья, чем танк 1 уровня, и, таким образом, урон значительно проще наносить в боях 8 уровня. Напротив, уничтожать танки очень легко на 1 уровне. В конечном счете средний уровень боев уменьшается значительно меньше, чем средний нанесенный урон, что вызывает огромную перекос при расчете WN7!
Теперь рассмотрим, что произойдет, если я возьму среднюю статистику танков 8 уровня, не считая игру на T1 Cunningham. Результат будет 2960 WN7. Таким образом, хотя WN7 игры T1 Cunningham, рассмотренный отдельно, был ниже 1600, он ЧРЕЗВЫЧАЙНО раздувает статистику, когда включается в общий расчет!
Очевидно, размер выборки недостаточный, но вы поняли идею.

Артиллерия и легкие танки - наконец, танки этих классов имеют статистику значительно отличающуюся от таковой для их одноуровневых собратьев. Если показатели ТТ/СТ/ПТ примерно сопоставимы, то ЛТ 8-го уровня не наносит урона или уничтожает столько танков как ИСУ-152/ИС-3/T69/АМХ 50 100. Артиллерия не должна подсвечивать врагов (и, следовательно, количество обнаруженных танков должно быть немного ниже), а значения урона могут быть очень высокими на некоторых уровнях, в частности, до их перебалансировки в патче 0.8.6 (при этом они сейчас ниже, в связи с изменением DPM)!

Отличительные особенности WN8

Урон/уровень против по-танковых рейтингов

При расчете WN1-7 и рейтинга Efficiency v1 и v2 (далее Eff) использовалась статистика, предоставляемая Wargaming(c) через Web API. К ней применялись разные веса для каждого значения в попытке вывести значимое общее значение рейтинга. Однако, проблемы перечисленные выше сохраняются для любого рейтинга, который для вычисления использует оценку "урон/уровень". Нет никакого способа, чтобы обойти ту проблему, что наносимый урон или количество уничтоженной техники не могут оцениваться одинаково на одном уровне.
Таким образом, в WN8 мы приняли совершенно иной метод. Мы не первые, кто использовал этот метод. Рейтинг эффективности г-на Noobmeter (Performance Rating, далее PR) использовал по-танковый рейтинг танка (per-tank rating) с момента его создания. Первоначально PR был принят скептически, потому что формула его расчета была неизвестной. Г-н Noobmeter опубликовал его несколько месяцев назад и объяснил принцип его расчета. По-танковый рейтинг значительно труднее развивать (требует получения хороших данных) и применять (требует гораздо больше вычислительной мощности), но позволяет учесть результаты для каждого танка в статистике учетной записи, что не может быть учтено оценкой урон/уровень. Так WN8 становится по-танковым рейтингом, вместо рейтинга урон/уровень. Именно поэтому вы не увидите в конечном уравнении средний уровень танка, поскольку эта информация учтена на более ранних этапах. Так что часть информации, содержащейся в WN8 теперь включает в себя как танки выбранные игроком, так и количество боев, сыгранных на учетной записи.

Шкала

Одна из первых вещей, которую заметит читатель то, что шкала WN8 отличается от шкалы, введенной Eff и адаптированной для WN1-7. Причины смены шкалы обусловлены некоторыми решениями, принятыми в ходе разработки WN8. Вы можете увидеть техническую сторону и обоснование в разделе Основные принципы. Но самое простое объяснение в том, что по шкале Eff не было достаточно различия между игроками с разными способностями. Верхние и нижние границы шкалы были сжаты. На графике вы можете видеть шкалу WN8, с наложенной на неё шкалой WN7 и PR.

Результатом этого изменения масштаба является то, что значения WN7 на самом деле не сопоставимы с WN8, хотя они оба четырёхзначные. Мы понимаем, что это неудобно, особенно, из-за сдвига цветовых маркеров (приведенные внизу для WN8). Однако, иногда шкалы нужно изменить или сместить центр или точку отсчета. Как пример, посмотрите на шкалу Фаренгейта / Цельсия / Кельвина. Как и прежде, очень небольшое количество игроков попадают в крайние зоны шкалы, и основная дифференциация происходит в середине графика.

Ограничения и границы применимости

История - мириады вещей были изменены со времени выхода WoT, когда на учетных записях начала накапливаться статистика. Изменения уровня (T30, T34, ИС-4, Batchat 25т, ЛТ серии AMX, артиллерия, МТ-25, VK28.01 и т.д.), изменения баланса, изменения механики игры (ввод физики, премиумные снаряды за кредиты, распределение снарядов по 2 сигма, уровень боев ±2) как наиболее очевидные. Всё это не то же самое теперь, как оно было ранее, и в будущем также будет изменяться. Команда WN* полностью осознает, что история изменений ухудшает измерения, но, поскольку мы ничего не можем с этим поделать, мы всегда напоминаем людям, чтобы они смотрели данные учетных записей и задавали вопросы, если им необходимо знать больше об истории чьей-то учетной записи.
Wargaming(c) ужасен в отношении скрытия данных. Они могли бы оставить каждому статистику на Т-50-2 и ввести новый идентификатор для МТ-25. Мы хотим чтобы они поступили таким образом (как и для всех перемещенных и замененных танков). But in reality, 60-day or recent battle stats will have to do.
Созревание - игроки, как индивидуально, так и в составе команд, могут играть относительно лучше или хуже с течением времени. Сейчас в сети больше информации, чем было в 2011 году, и прогресс игрока может быть быстрее или медленнее в зависимости от того, сколько усилий он прикладывает для изучения механики и общих принципов игры WoT. Кроме того, поскольку получение dossier-файлов всегда происходит с задержкой, может пройти много времени, чтобы серьезные изменения в игре отразились на общих или совокупных рейтингах, особенно для учетных записей с большим количеством боев.
Урон, нанесенный по засвету - Wargaming(c) указал, что он может быть включен в статистику, отдаваемую API когда-нибудь в будущем, но сейчас он не доступен.
Урон, нанесенный по засвету — важный показатель качества игры, особенно игры на легких танках. Однако, даже без этих данных сейчас рейтинг игроков на легких танках намного лучше. Да здравствуют по-танковые методы!
Большое количество боев на одном танке - Это ухудшает рейтинг WN8, потому что некоторые игроки играют так много игр на одном танке, что рейтинг WN8 учетной записи начинает приближаться к значению WN8 для этого одного танка. Но WN8 была сформулирована для оценки всей записи в предположении об игре на разных танках, а не на одном. Это предположение гораздо слабее, чем в рейтинге WN7 и всех предыдущих. В какой-то момент, кто-то может сыграть достаточно игр на одном танке, чтобы "сломать" нормализацию предположений WN8. Сколько игр достаточно сыграть, чтобы это произошло? Мы не проводили формальный анализ, но, в первом приближении, можно предположить, что если у кого-то есть более 50% боев на их учетной записи на одном танке, этого достаточно, чтобы сделать WN8 недействительным. Но, напоминаем, что совершенно нормально играть на любимом танке тысячи и тысячи боев. WN8 не "оштрафует" вас за это, просто ваш рейтинг труднее сравнивать с рейтингами других игроков. Мы не можем учесть все возможные случаи!
Вариативность по-танковых показателей - В связи с вышеописанным, хотя WN8 и использует по-танковые показатели, для разных танков возможна вариация показателей (и она наблюдается). В качестве примера, рассмотрим T49 и АТ-2. Для AT-2 - медлительной, с плохим обзором, но сильно бронированной ПТ диапазон возможных показателей значительно меньше, чем для T49, тоже ПТ 5-го уровня. T49 быстрая, с малым количеством очков прочности и хорошей маскировкой, но такие характеристики обычно приводят либо к гораздо лучшей или намного худшей статистике по сравнению с ее средними значениями. Для AT-2 вариация показателей будет меньше, чем для T49. Поэтому, даже имея хорошие источники для получения средних значений показателей для T49 и AT-2, основная масса игроков будет видеть гораздо более высокие и более низкие значения рейтинга для T49, чем для АТ-2.
Рейтинг WN8 не учитывает показатель вариативности показателей при расчете. Мы не считаем, что имеющиеся данные достаточны, чтобы хорошо ее оценить, а WN8 и так уже на несколько порядков более сложен для расчета по сравнению с WN7. Поскольку команда WN* не содержит серверы, которые рассчитывают рейтинги WN* для общественности, было решено оставить исследование влияния вариации по-танковых показателей для WN9 или более позднего. В качестве примера вариативности по-танковых показателей, и математическое обоснование, почему танки с более высокими значениями вариативности могут повысить ваш рейтинг (при хорошей игре) - смотрите WN8: Appendix A.