При подготовке признаков для моделей машинного обучения зачастую приходится добавлять значения из одной таблицы в другую, используя для этого одинаковые поля для идентификации того, откуда и куда перенести данные. Например, в ходе обработки сведений о продаже недвижимости в Республике Северная Осетия Алания, возникла задача добавления к характеристикам жилья дату возведения дома. Исходная таблица имеет следующий вид: Также в нашем распоряжении имеется другая таблица о периоде возведения домов следующего вида: Чтобы добавить в первую таблицу сведения о дате возведения дома можно пойти следующим путем. Сначала из неструктурированного поля описания (adr) квартиры составить поле адреса формата улица;дом, потом добавить аналогичное поле для второй таблицы из одноименных столбцов (см. статью), а затем из последнего и года возведения дома составить словарь, который будет применен для добавления нового столбца в первую таблицу путем поэлементного отображения значений «улица;дом» в поле год
Отображение значений из одной таблицы в другую с помощью Pandas
5 августа 20205 авг 2020
179
1 мин