Стартовала реализация первого на российском рынке проекта по использованию нейросетей для формирования квалифицированных описаний отелей, исправления справочников географии и извлечения знаний об отелях из текстовых описаний, созданных самими отдыхающими. Об этом начинании, которое обещает стать революционным в отрасли, мы поговорили с Евгением Бибилюровым, директором департамента IT туроператора UTS Group.
- Известно, что любая эффективная инновация исходит из реальной бизнес-проблемы. Как можно описать ту проблему, которую вы пытаетесь решить с помощью нейросетей?
– Не секрет, что участники рынка business travel часто сталкиваются с проблемой несоответствия данных по отелям от каждого из поставщиков. И если счет по поставщикам может идти на десятки или даже сотни, то количество отелей в десятки тысяч раз больше. Судите сами: сейчас в базе Hotelbook – около 2 млн неуникальных объектов от десятков поставщиков, если же говорить только об уникальных – их порядка 1 млн. Как мы понимаем из этой пропорции – 50% информации – это совпадения.
Сейчас в базе Hotelbook – около 2 млн неуникальных объектов от десятков поставщиков, если же говорить только об уникальных – их порядка 1 млн. Как мы понимаем из этой пропорции – 50% информации – это совпадения.
Информация об отелях меняется постоянно и ее надо отслеживать: меняются описания, звездность, названия, геолокационные данные, цены. Были случаи, когда отели в нашей базе внезапно меняли даже свой реальный адрес.
При этом все эти изменения зависят от множества источников и факторов – и информацию об одном и том же отеле, которая имеется в базах данных наших поставщиков, необходимо сопоставлять («матчить»), проассоциировать между собой и привести к единому актуальному формату. Это довольно сложно.
Так, многие отели сами загружают свой контент через личные кабинеты в системе поставщика, разные поставщики имеют разный формат отображения этой информации. Время и периоды обновления баз данных у различных поставщиков также различаются, протоколы, по которым Hotelbook синхронизируется с ними, также могут быть самыми разными – от интеграции по API вплоть до выгрузки всего контента с сервера.
– Но ведь вся эта проблематика известна давно. Как с этим справлялись до этого?
- Изначально, на первом этапе развития системы Hotelbook мы решали задачу сопоставления повторяющейся информации об отелях вручную: это успешно делали 1-2 сотрудника. Затем, по мере расширения пула поставщиков и резкого увеличения объема информации, задача поддержания качества данных резко усложнилась.
Тогда мы внедрили разработанное собственными силами программное решение, которое по определенному алгоритму сопоставляло информацию об объектах в полуавтоматическом режиме. И все равно самые рисковые позиции, где наш «робот» не мог определить близкую к 100% вероятность совпадения, оставались на ручной обработке – это где-то 60% позиций.
С ростом количества поставщиков и размерности нашей базы отелей, затраты на совершенствование «робота» и привлечение дополнительных сотрудников к ручному сопоставлению становились все выше – и достигли существенной суммы.
В 2017 году Hotelbook добавил 15 новых поставщиков, а далее мы планируем добавлять не менее 20 новых поставщиков в год. Для понимания масштаба этой Big Data: у каждого из них – от 30 до 200 тысяч новых отелей в базах.
С этим надо было что-то делать – учитывая, что в 2017 году Hotelbook добавил 15 новых поставщиков, а далее мы планируем добавлять не менее 20 новых поставщиков в год. Для понимания масштаба этой Big Data: у каждого из них – от 30 до 200 тысяч новых отелей в базах.
- Как вы пришли к идее использовать для этого инструментарий, связанный с нейросетями и почему?
- На одной из конференций в ходе обсуждения с коллегами мы пришли к выводу о необходимости попробовать применить классическую нейросетевую модель к процессу матчинга отелей в нашей базе данных. Попробовав несколько фреймворков, мы поняли, что использование этой модели будет у нас эффективным.
Нейросети было на чем обучаться: фактически, мы уже располагали путем от «хаоса» к «идеальному» состоянию отелей в базе – причем, что очень важно, весь этот путь протоколировался до деталей (кто, когда и зачем вносил изменения).
Фактически, мы уже располагали путем от «хаоса» к «идеальному» состоянию отелей в базе – причем, что очень важно, весь этот путь протоколировался до деталей (кто, когда и зачем вносил изменения).
Осознав свой задел, мы привлекли к разработке численной модели российских математиков, у которых был опыт в этой области, специалистов по Machine Learning и нейросетям.
Для обеспечения потребностей разработчиков мы арендовали дата-центр с серверами принципиально новой для нас комплектации, которая также используется для рендеринга видео. Сейчас мы думаем над приобретением собственного оборудования этого класса.
– Насколько быстро был создан рабочий вариант решения? Что делает сейчас нейросеть с отельной базой?
– После консультаций со специалистами мы решили использовать для программирования Python и прочие специализированные фреймворки. База данных – PostgreSQL.
Сейчас мы находимся на этапе подготовки к первому «прогону» по необработанным массивам. В настоящий момент команда специалистов UTS сопоставляет предложенные варианты каждого из поставщиков, и получив разностный контент, мы выберем самое лучшее и стандартизируем к одному виду.
Нейросеть обрабатывает весь массив не-стандартизованных исходных новых данных и в части текстовой информации (приводя все описания к единому стандарту). Описание отелей будет стандартизировано не только в части текста, но и в части графики (планируем использовать внешний сервис, который классифицирует фотографии отелей и номеров на хорошие и плохие), и в части исправления у объектов геолокационных координат для верного размещения на картах.
Нейросеть обрабатывает весь массив не-стандартизованных исходных новых данных и в части текстовой информации, графики и в части исправления у объектов геолокационных координат для верного размещения на картах.
Кроме этого, нейросеть также будет извлекать и новые знания из текстовых описаний, созданных самими отдыхающими. То есть нами в том числе будет реализован поисковый механизм для сбора и накопления наилучшего описательного контента из авторитетных и проверенных источников с последующей стандартизацией и постоянной поддержкой в актуальном состоянии.
В итоге, ручной труд останется только для того, чего нейросеть «не поймет» – это не более 1% контента.
- А типы номеров в отелях будут приводиться к единому стандарту?
- Вы уже забегаете вперед: это уже второй запланированный этап нашего проекта. Этим летом стартует первая волна реализации – по матчингу новых отелей, корректировке атрибутов и обогащению описаний отелей, для формирования так называемых паспортов отелей.
Запуск уже «обученной» нейросети в полномасштабную эксплуатацию мы планируем на сентябрь-октябрь 2018 года. Вторая волна – это как раз работа с базой номеров – будет закончена, по нашим расчетам, к февралю-марту 19 года.
Этим летом стартует первая волна реализации – по матчингу новых отелей, корректировке атрибутов и обогащению описаний отелей, для формирования их паспортов. Запуск уже «обученной» нейросети в полномасштабную эксплуатацию - сентябрь-октябрь 2018 г.
Дело в том, что номера как сущности не могут «висеть в пустоте». Для того, чтобы привести все описания номеров к нашему единому стандарту, нам нужно, чтобы они были привязаны к конкретному отелю.
Поэтому – все по порядку: сначала нейросеть «приведет в порядок» весь корпус сведений об объектах размещения, включая географические данные, затем – массив информации по номерам (описательная часть, названия, фотографии). Это тоже очень важно – сейчас структурированной группировки номеров у нас нет, у разных поставщиков могут быть разные описания и названия одного и того же номера в одном и том же отеле.
- Есть ли уже какие-то подсчеты, каков по объему будет экономический эффект от реализованного проекта для UTS Group?
- По предварительным подсчетам, после запуска и внедрения этой системы, экономия бюджета будет составлять минимум ....