У каждого есть свой список сомнительных достижений. Но не каждый его ведет (а зря). Я свой уже публиковала, и вот подъехало пополнение.
Если у кого-то периодически случается профессиональное выгорание, то у меня, в основном, - профессиональное подгорание. Это когда ты видишь какую-то дичь в той сфере, где (как тебе кажется) ты разбираешься, но ты никак не можешь это остановить или исправить.
Занялись мы в этом году множеством исследований, было дело. Даже я свою аспирантскую тему подняла чуть-чуть. И тут, как обычно, встал вопрос о компромиссе между точностью и скоростью, например. Не люблю такие компромиссы, мне надо и точность и скорость, зачем выбирать? Есть 1000 способов решить задачу, есть лучшие и худшие, но надо найти - подходящий.
И стали искать подходящий… сразу скажу, самое интересное начинается, когда мы работаем с данными, к созданию которых приложил свою руку человек.
Нельзя просто так взять и внести/оцифровать данные, особенно если их много, особенно если они передаются куда-то как отчет, и не накосячить. Каждый из нас человек, и каждый из нас нет-нет да и да… согрешит где-то с данными.
При разработке моделей используются разные поправочные коэффициенты, но лучшее, что я слышала (спасибо одному моему другу за формулировку, однозначно, посвящаю ему этот пост 💚) - коэффициент пи*дежа. Именно в такой формулировке он более менее точно описывает поправку.
Считаю, этот коэффициент должен использоваться в каждой модели, где имеют место данные, создаваемые человеком. Потому что пока ты приводишь данные и занимаешься их очисткой, где-то косячит один (или много) человек.
Один из моих любимых примеров - база Росгидромета:
- Полярная станция имени Кренкеля. +30
Загадочные даты:
- 59 марта 1973 года
- 32 октября 1975 года
- 80 февраля 1975 года
- 0 апреля 1975 года (1975 год вообще отличился, да)
Итак, коэффициент пи*дежа может быть разным для разных моделей, но варьироваться, скорее всего, будет не сильно.
Используйте для наибольшей точности. Выяснить экспериментальным путём меру пи*дежа в вашем деле, кстати, тоже очень любопытно. На обучающей и контрольной выборке, подбирая коэффициент, можно по-новому взглянуть на тех, кто имеет отношение к этому делу.
И второе - связываясь с работой с данными, которые оцифровывались вручную, закладывайте в бюджет проекта антидепрессанты, алкоголь и время на поплакать.