#python #pandas #FuzzyWuzzy #анализ данных Предполагаемый результат — сопоставить каждое значение столбца A с ближайшим соответствующим значением в столбце B, которое затем помещается в ту же строку. Часто, когда вы работаете с разными источниками данных, один и тот же объект (адрес, номер телефона, e-mail и др.) может быть написан в свободной форме или сформулирован по-разному. Мы будем работать над сопоставлением адресов, первый DataFrame которого содержит адреса, извлеченные из PDF-сканов договоров аренды, второй DataFrame представляет собой выгрузку адресов из базы, с необходимыми в последующем данными. Во-первых, импортируем, все необходимые для нас, пакеты: import pandas as pd Вы можете установить FuzzyWuzzy, запустив в своем JupyterNotebook или через cmd: От FuzzyWuzzy нам в основном понадобятся два модуля: process и fuzz. from fuzzywuzzy import fuzz
from fuzzywuzzy import process 2. Данные На входе у нас есть два кадра данных таблицы, которые нужно будет сопоставить: df_num