Как известно Авито - крупная рекламная платформа для продвижения продуктов и услуг. Одно из динамично развивающихся направлений это Авито.Недвижимость. В этой нише работаем и мы. Нам важно, чтобы в тексте объявлений на Авито был указан наш уникальный ID продаваемого объекта. Т.к. пользователю не всегда удобно общаться с менеджером внутри Авито, а Авито трафик "наружу" не выводит. Конструкции наших ID:
COM[ЦИФРОВОЙ КОД]; B[ЦИФРОВОЙ КОД] и. т.д. При проведении оптимизации рекламных компаний обнаружилось, что при копировании ID объекта и попытке его найти на нашем сайте - объекта имущества и нет. Выяснилось, что Авито использует систему "фуззи-нормализации" (fuzzy text sanitizing). Это подтверждается наличием открытой библиотеки github.com/avito-tech/normalize, которую компания использует для чистки и приведения текста к единому стандарту. Система автоматически применяет набор правил. Если говорить простыми словами, она делает текст "удобоваримым" для поиска. Одно из ключевых правил на