Найти в Дзене
SimpleExcel

КАК НАЙТИ ПОХОЖИЕ ТЕКСТОВЫЕ ЗНАЧЕНИЯ В EXCEL

1. Проблема.

Иногда при работе с таблицами Excel мы сталкиваемся с проблемой поиска похожих, по сути одинаковых, значений, различающихся разными способами написания, описками и т.п. Встроенных инструментов не хватает для анализа данных не хватает, а писать отдельный макрос под это довольно хлопотное занятие.

В этом случае поможет надстройка Fuzzy Lookup, которая осуществляет нечеткий поиск текстовых данных таблицы. Она поможет найти похожие значения и выгрузить напротив искомого наиболее похожее совпадение.

Скачать надстройку можно с официального сайта Microsoft по ссылке: https://www.microsoft.com/en-us/download/details.aspx?id=15011.

2. Установка надстройки.

Устанавливаем программу согласно инструкции на сайте, после этого открываем Excel и видим, что в Excel на верхней панели появилась новая вкладка – Fuzzy Lookup.

-2

3. Поиск данных.

Допустим, мы имеем два столбца с адресами. В обоих указаны одинаковые адреса, но записаны они по-разному, поэтому воспользоваться функциями ВПР или ПРОСМОТРХ не получится.

Таблица с исходными данными. Слева - те что нужно найти, справа - то где будем искать
Таблица с исходными данными. Слева - те что нужно найти, справа - то где будем искать

Первое, что нужно сделать это отформатировать эти два столбца на отдельные умные таблицы, т.к. надстройка не умеет работать с простыми таблицами. Для того во вкладке Главная переходим к разделу стили – Форматировать как таблицу – выбираем подходящий вам стиль.

-4

Так делаем в отдельности на каждый столбец. После форматирования появляется дополнительная вкладка Конструктор таблиц. Теперь мы можем узнать, как называются наши умные таблицы. В данном случае это Таблица1 и Таблица2.

-5
-6

Теперь переходим непосредственно к вкладке Fuzzy Lookup.

Кнопка во вкладке Fuzzy Lookup, открывающая окно для работы с надстройкой
Кнопка во вкладке Fuzzy Lookup, открывающая окно для работы с надстройкой

Здесь имеется лишь один единственный раздел – Fuzzy Lookup. Нажимаем на него, и у нас появляется окно с функциями этой надстройки.

Окно для работы с надстройкой Fuzzy Lookup
Окно для работы с надстройкой Fuzzy Lookup

1) Left Table и Right Table. Это выбор наших умных таблиц для поиска соответствий. Как мы помним, наши таблицы называются Таблица1 и Таблица2. Их мы и выбираем в позициях Left Table и Right Table.

2) Left Columns и Right Columns. Это столбцы наших умных таблиц. Наши умные таблицы каждая состоят всего из одного столбца, но их может быть любое количество, поэтому для сопоставления данных необходимо выбрать, какой именно столбец из первой таблицы будет использован для поиска похожего значения соответствующего столбца с адресами в другой. Нажимаем кнопку между Left Table и Right Table (кнопка напоминает букву «Ж»), и теперь в графе Match Columns будут отображаться сопоставляемые столбцы.

Таким образом, выбираем нужные столбцы и идем дальше.

3) Output Columns – это столбцы, которые будут выгружаться как результат нашего нечеткого поиска. Так как у нас есть столбец с правильными адресами, то нам нужно найти наиболее похожие значения в столбце с неправильными адресами. Поэтому оставляем галочку только на Таблица2.С ошибками.

4) Дойдя до Similarity Threshold мы можем установить процент соответствия. Чем выше процент соответствия вы задаете, тем ниже вероятность, тем ниже вероятность, что вы что-нибудь найдете. Поэтому рекомендую ставить примерно 60-80%, но лучше все-таки отталкиваться от самой задачи.

5) После того, как мы установили все настройки, нажимаем на ближайшую от наших умных таблиц ячейку, чтобы туда выгрузились наши результаты, и нажимаем Go.

Рядом с нашей умной таблицей выгрузились результаты.

Столбец с результатами поиска
Столбец с результатами поиска

Примерно так работает полезная и простая надстройка Excel для нечеткого поиска, которая в условиях дедлайна действительно может помочь проанализировать большой объем информации и выдать нужный результат. Однако, необходимо учитывать следующее.

4. Недостатки надстройки.

Первое – это то, что обработки по-настоящему больших объемов информации, скорость поиска зависит от вычислительной мощности вашего компьютера. Немного увеличивает скорость настройка в Configure – Global Settings – UseApproximateIndexing. Поставив этот параметр в значение True, вы сможете немного ускорить процесс поиска.

Настройка, позволяющая увеличить скорость поиска
Настройка, позволяющая увеличить скорость поиска

Второе. За надстройкой лучше бы проверить, потому что все-таки она ищет процентное соотношение совпадения значений, и поэтому может допускать ошибки. Но иногда лучше сделать с ошибками, чем не сделать вовсе.

На этом все, спасибо за внимание!

Наука
7 млн интересуются