Рассмотрим пример проблемы, возникающей в результате неаккуратной работы с индексами Pandas объектов. Пусть имеются две взаимосвязанные колонки ser1, ser2. Допустим, нам надо сэмплировать несколько строк из первой серии и упорядочить строки второй серии в том же порядке: Как и ожидалось, появились повторяющиеся индексы. Обратите внимание на интересное поведение при обращении по ним: То есть при обращении по повторяющемуся индексу вы получите кратное количество всех его вхождений. Пусть теперь надо из ser1_resampled выбрать n строк в позициях с наибольшими значениями в ser2_resampled. На первый взгляд кажутся применимыми следующие два подхода: Однако из-за повторов в каждом из кейсов результат получится неожиданным: То есть вместо ожидаемых 6 строк получили 12. А во втором случае получится так: Оба варианта являются неправильными, так как у нас появились строки, отсутствовавшие в первоисточнике (например, стольких дублей троек не было). А корректно было сделать то же самое, только предв
Ловушка сэмлирования, приводящая к размножению повторных индексов
16 июля 202216 июл 2022
74
1 мин