Найти в Дзене

Самообучающиеся нейросети меняют российский рынок Business Travel

Стартовала реализация первого на российском рынке проекта по использованию нейросетей для формирования квалифицированных описаний отелей, исправления справочников географии и извлечения знаний об отелях из текстовых описаний, созданных самими отдыхающими. Об этом начинании, которое обещает стать революционным в отрасли, мы поговорили с Евгением Бибилюровым, директором департамента IT туроператора UTS Group.

- Известно, что любая эффективная инновация исходит из реальной бизнес-проблемы. Как можно описать ту проблему, которую вы пытаетесь решить с помощью нейросетей? 

– Не секрет, что участники рынка business travel часто сталкиваются с проблемой несоответствия данных по отелям от каждого из поставщиков. И если счет по поставщикам может идти на десятки или даже сотни, то количество отелей в десятки тысяч раз больше. Судите сами: сейчас в базе Hotelbook – около 2 млн неуникальных объектов от десятков поставщиков, если же говорить только об уникальных – их порядка 1 млн. Как мы понимаем из этой пропорции – 50% информации – это совпадения.

Сейчас в базе Hotelbook – около 2 млн неуникальных объектов от десятков поставщиков, если же говорить только об уникальных – их порядка 1 млн. Как мы понимаем из этой пропорции – 50% информации – это совпадения.

Информация об отелях меняется постоянно и ее надо отслеживать: меняются описания, звездность, названия, геолокационные данные, цены. Были случаи, когда отели в нашей базе внезапно меняли даже свой реальный адрес.

При этом все эти изменения зависят от множества источников и факторов – и информацию об одном и том же отеле, которая имеется в базах данных наших поставщиков, необходимо сопоставлять («матчить»), проассоциировать между собой и привести к единому актуальному формату. Это довольно сложно.

Так, многие отели сами загружают свой контент через личные кабинеты в системе поставщика, разные поставщики имеют разный формат отображения этой информации. Время и периоды обновления баз данных у различных поставщиков также различаются, протоколы, по которым Hotelbook синхронизируется с ними, также могут быть самыми разными – от интеграции по API вплоть до выгрузки всего контента с сервера.

– Но ведь вся эта проблематика известна давно. Как с этим справлялись до этого?

- Изначально, на первом этапе развития системы Hotelbook мы решали задачу сопоставления повторяющейся информации об отелях вручную: это успешно делали 1-2 сотрудника. Затем, по мере расширения пула поставщиков и резкого увеличения объема информации, задача поддержания качества данных резко усложнилась.

Тогда мы внедрили разработанное собственными силами программное решение, которое по определенному алгоритму сопоставляло информацию об объектах в полуавтоматическом режиме. И все равно самые рисковые позиции, где наш «робот» не мог определить близкую к 100% вероятность совпадения, оставались на ручной обработке – это где-то 60% позиций.

С ростом количества поставщиков и размерности нашей базы отелей, затраты на совершенствование «робота» и привлечение дополнительных сотрудников к ручному сопоставлению становились все выше – и достигли существенной суммы.

В 2017 году Hotelbook добавил 15 новых поставщиков, а далее мы планируем добавлять не менее 20 новых поставщиков в год.  Для понимания масштаба этой Big Data: у каждого из них – от 30 до 200 тысяч новых отелей в базах.

С этим надо было что-то делать – учитывая, что в 2017 году Hotelbook добавил 15 новых поставщиков, а далее мы планируем добавлять не менее 20 новых поставщиков в год.  Для понимания масштаба этой Big Data: у каждого из них – от 30 до 200 тысяч новых отелей в базах.

- Как вы пришли к идее использовать для этого инструментарий, связанный с нейросетями и почему?

- На одной из конференций в ходе обсуждения с коллегами мы пришли к выводу о необходимости попробовать применить классическую нейросетевую модель к процессу матчинга отелей в нашей базе данных. Попробовав несколько фреймворков, мы поняли, что использование этой модели будет у нас эффективным.

Нейросети было на чем обучаться: фактически, мы уже располагали путем от «хаоса» к «идеальному» состоянию отелей в базе – причем, что очень важно, весь этот путь протоколировался до деталей (кто, когда и зачем вносил изменения).

Фактически, мы уже располагали путем от «хаоса» к «идеальному» состоянию отелей в базе – причем, что очень важно, весь этот путь протоколировался до деталей (кто, когда и зачем вносил изменения).

Осознав свой задел, мы привлекли к разработке численной модели российских математиков, у которых был опыт в этой области, специалистов по Machine Learning и нейросетям.

Для обеспечения потребностей разработчиков мы арендовали дата-центр с серверами принципиально новой для нас комплектации, которая также используется для рендеринга видео. Сейчас мы думаем над приобретением собственного оборудования этого класса.

Насколько быстро был создан рабочий вариант решения? Что делает сейчас нейросеть с отельной базой?

– После консультаций со специалистами мы решили использовать для программирования Python и прочие специализированные фреймворки. База данных – PostgreSQL.

Сейчас мы находимся на этапе подготовки к первому «прогону» по необработанным массивам. В настоящий момент команда специалистов UTS сопоставляет предложенные варианты каждого из поставщиков, и получив разностный контент, мы выберем самое лучшее и стандартизируем к одному виду.

Нейросеть обрабатывает весь массив не-стандартизованных исходных новых данных и в части текстовой информации (приводя все описания к единому стандарту). Описание отелей будет стандартизировано не только в части текста, но и в части графики (планируем использовать внешний сервис, который классифицирует фотографии отелей и номеров на хорошие и плохие), и в части исправления у объектов геолокационных координат для верного размещения на картах. 

Нейросеть обрабатывает весь массив не-стандартизованных исходных новых данных и в части текстовой информации, графики и в части исправления у объектов геолокационных координат для верного размещения на картах. 

Кроме этого, нейросеть также будет извлекать и новые знания из текстовых описаний, созданных самими отдыхающими. То есть нами в том числе будет реализован поисковый механизм для сбора и накопления наилучшего описательного контента из авторитетных и проверенных источников с последующей стандартизацией и постоянной поддержкой в актуальном состоянии.

В итоге, ручной труд останется только для того, чего нейросеть «не поймет» – это не более 1% контента.

- А типы номеров в отелях будут приводиться к единому стандарту?

- Вы уже забегаете вперед: это уже второй запланированный этап нашего проекта. Этим летом стартует первая волна реализации – по матчингу новых отелей, корректировке атрибутов и обогащению описаний отелей, для формирования так называемых паспортов отелей.

Запуск уже «обученной» нейросети в полномасштабную эксплуатацию мы планируем на сентябрь-октябрь 2018 года. Вторая волна – это как раз работа с базой номеров – будет закончена, по нашим расчетам, к февралю-марту 19 года.

Этим летом стартует первая волна реализации – по матчингу новых отелей, корректировке атрибутов и обогащению описаний отелей, для формирования их паспортов. Запуск уже «обученной» нейросети в полномасштабную эксплуатацию - сентябрь-октябрь 2018 г.

Дело в том, что номера как сущности не могут «висеть в пустоте». Для того, чтобы привести все описания номеров к нашему единому стандарту, нам нужно, чтобы они были привязаны к конкретному отелю.

Поэтому – все по порядку: сначала нейросеть «приведет в порядок» весь корпус сведений об объектах размещения, включая географические данные, затем – массив информации по номерам (описательная часть, названия, фотографии). Это тоже очень важно – сейчас структурированной группировки номеров у нас нет, у разных поставщиков могут быть разные описания и названия одного и того же номера в одном и том же отеле.

- Есть ли уже какие-то подсчеты, каков по объему будет экономический эффект от реализованного проекта для UTS Group?

- По предварительным подсчетам, после запуска и внедрения этой системы, экономия бюджета будет составлять минимум ....

.... ЧИТАТЬ ДАЛЬШЕ