Едва только обнародовали результаты голосования по поправкам в Конституции, как некоторые эксперты стали делать далеко идущие выводы о том, что «Россия поставила рекорд в фальсификации голосования» (см., напр., здесь). Поводом стала одна интересная статистическая аномалия, связанная с результатами голосования.
В этой заметке я бы хотел более пристально рассмотреть эту аномалию и обсудить ее возможную интерпретацию.
Аномалия сводится к положительной корреляции между явкой и процентом голосовавших за поправки. Иными словами, чем больше был в среднем процент голосовавших на избирательном участке, тем выше была доля голосовавших за поправки. Этот факт рассматривается как аномальный, потому что во время прошлых, близких по смыслу, президентских выборов такой зависимости не наблюдалось.
Чем эту зависимость объясняют? Вбросами бюллетеней с уже проставленными галочками в нужном квадратике. На тех участках, где удалось провернуть эту аферу, удалось показать завышенные цифры явки и поддержки, а там, где с этим что-то не срослось, статистика выявляет уже более скептическое отношение людей к поправкам.
Отмечу, что это объяснение, по сути, является гипотезой, которая сама нуждается в проверке.
Если предположить, что результат обеспечен массовыми вбросами бюллетеней, заказ на это должен был идти сверху – от основного бенефециара этого результата. Как это бывает и в других ответственных случаях, заказ спускается главам регионов. Последние же показывают разную результативность в чем угодно, в том числе и в плане обеспечения фальсифицируемой явки и поддержки. Один глава региона мог начать ретиво исполнять указание, так что в его регионе на всех участках наблюдается похожая картина в виде высокой явки и поддержки. Другой губернатор уделил этому меньше внимания, и на уровне этого региона выдается уже более скромная статистика. Если все было так, то статистика должна фиксировать выраженную корреляцию явки и поддержки при сравнении регионов друг с другом, но не внутри отдельных регионов (на английском это можно выразить короче: across, rather than within, regions).
Это предположение можно проверить с помощью данных, доступных на сайте ЦИК России. В частности, там можно скачать результаты голосования по всем избирательным участкам, которые сгруппированы по региональной принадлежности.
Что нам дает региональная принадлежность избирательных участков? Мы можем оценить регрессию процента голосовавших за поправки по явке и, ключевой момент, региональной принадлежности. Включаем в уравнение фиктивные переменные принадлежности участков к тому или иному региону. Если дело было в сравнительных усилиях региональных властей, то после включения этих переменных положительная связь между явкой и поддержкой должна исчезнуть или хотя бы значительно измениться. Ведь в этом случае мы уже сравниваем не регионы, а участки на уровне отдельных регионов.
Для начала берем те же данные, которые были использованы в цитируемой статье, а именно без участков за пределами РФ. Соответствующая корреляция показана на заглавной картинке. Затем добавляем дамми по всем регионам, и оцениваем ту же регрессию.
Что же вышло? А вышло почти то же самое, а именно коэффициент 0.296, только доверительный интервал в последнем случае немного шире.
Близость результатов нетрудно визуализировать. Чтобы привести результаты к сопоставимому виду, нормализуем обе переменные. (Это делается путем вычитания из переменной ее среднего и деления результата на ее стандартное отклонение, так что в итоге она имеет параметры стандартного нормального распределения). Затем очищаем их от региональной принадлежности. (Это делается так: оцениваем регрессию переменной на региональные дамми, а получаемый остаток – это вариация этой же переменной за вычетом той ее части, которая объясняется регионами.)
На выходе имеем две пары переменных, в исходном и в очищенном виде. Дальше берем два графика разброса и накладываем друг на друга. Результат на картинке ниже.
Хорошо видно, что два облака наблюдений почти совпадают. Это является наглядной демонстрацией того, что региональная вариация не внесла почти никакого вклада в получившуюся аномалию и, значит, эта аномалия в основном объясняется разницей между отдельными участками внутри отдельно взятых регионов. С точки зрения статистики, можно сказать, что мы имеем дело с достаточно редким феноменом случайного распределения между единицами наблюдения групповых характеристик, значимых для итогового результата.
Имеются и другие интересные наблюдения. Сейчас уже доступны результаты по участкам за пределами РФ, и они весьма примечательны. Во-первых, своей почти стопроцентной явкой, во-вторых, более низким процентом поддержки. С учетом этих участков разброс уже выглядит несколько иначе.
А вот распределение результатов голосования для участков со стопроцентной явкой.
Интересно, что средний результат здесь ниже, чем в целом по стране. Это наблюдение идет вразрез с отмеченной аномалией.
Есть еще одно интересное наблюдение. Имеются данные по количеству выданных бюллетеней и бюллетеней, попавших в урны. Разница между ними – это количество бюллетеней, которое люди взяли, но не донесли до урн. Имеются также данные по бюллетеням, признанным недействительными. Так вот, если мы добавим в регрессию поддержки не донесенные и недействительные бюллетени, коэффициенты получатся значимо отрицательные.
Правдоподобное объяснение этой корреляции может выглядеть примерно так. На тех участках, где проживало сравнительно больше противников поправок, было и больше тех, кто свой протест выражал нетрадиционными способами. Например, можно прийти на участок, только чтобы взять свой бюллетень и порвать его или написать на нем какое-то непотребство и опустить в урну. Сам по себе этот факт ничего не говорит о наличии или отсутствии фальсификаций, но является возможным штрихом к портрету противников поправок на этом плебисците.
Теперь о фальсификациях. Хотя я вполне допускаю их возможность, имеющиеся данные не позволяют сделать однозначные выводы ни в ту, ни в другую сторону. Имеется корреляция между явкой и поддержкой, но то, что она оказалась независима от региональной принадлежности, заставляет сомневаться в том, что дело было в фальсификациях.
Мне видится гораздо более прозаичное объяснение. В нашей стране так сложилось, что люди, поддерживающие власть, к политике равнодушны. Существующий государственный строй они воспринимают как естественный фон, который сам по себе не заслуживает их внимания. С другой стороны, противники власти представляют, пусть и небольшую, но активную часть общества. Поэтому эта активная часть была однозначно нацелена на то, чтобы участвовать в голосовании, в то время как сторонники голосовали лишь при условии, если сорвалась пьянка или рыбалка. В результате там, где звезды сошлись благоприятно для того, чтобы эта аполитичная часть общества пришла на избирательные участки, ими была обеспечена и высокая явка, и большой процент поддержки, а там, где аналогичная часть избирателей предпочла остаться на своих огородах, соответствующие цифры оказались ниже.
Как же тогда объяснить отсутствие аналогичной корреляции для результатов президентских выборов? Объяснение тоже простое. Испокон веков царь-батюшка – это единственный государственный институт, к которому наш народ испытывает теплые чувства. Поэтому во время президентских выборов аполитичная в остальное время часть нашего общества на короткое время становится политически активной. Сейчас же речь идет о Конституции, которая в глазах нашего народа представляет собой не более, чем пустую формальность. И если ради царя-батюшки еще можно оторвать зад от дивана, то ради этой никому не нужной бумажки – только если совсем делать нечего.
Резюмирую: вопреки тому, что говорят противники поправок, статистика не позволяет сделать вывод о наличии фальсификаций во время этого голосования, но она наводит на мысль, что, хоть наш народ и поддержал поправки, едва ли он относится к этому серьезно.
Подписывайтесь в моем телеграм-канале.