Найти тему
Просто гениально

Алгоритмизация поисковых операций в информационно аналитических системах.

Оглавление

Появление сетевых коммуникационных технологий существенно повлияло на скорость и объем передачи различных данных по всему миру. Появление специализированных местных сетей и, как следствие, Всемирной паутины определило переход использования данных из печатных источников в электронные. XXI век ознаменовал переход к новой эре информационных технологий, суть которой заключается в появлении источников данных и совместном использовании их. Новыми способами хранения и совместного использования информации стали облачные хранилища или облака, а также интернет вещи.

https://cdn.pixabay.com/photo/2019/04/29/07/39/cloud-4165397_960_720.jpg
https://cdn.pixabay.com/photo/2019/04/29/07/39/cloud-4165397_960_720.jpg

Большое значение для развития и роста отрасли информационно коммуникационных технологий может привести к дальнейшему переходу на так называемую "третью платформу", ключевыми компонентами которой являются мобильные вычисления, облачные сервисы, анализ больших массивов данных и социальные сети.

Рост отрасли практически полностью обеспечивается технологиями "Третьей платформы". Таким образом, значительные изменения, вероятно, произойдут в следующих областях: бизнес аналитика и обработка больших объемов данных.

Мультимедийная аналитика (видео, аудио и изображения) станет важным фактором стимулирования роста проектов в области обработки больших объемов данных.

Данные как услуга будут приобретать все большее значение по мере того, как провайдеры облачных платформ и аналитики будут предлагать своим клиентам качественно новую информацию, полученную из публичных ресурсов и ограниченных ресурсов доступа. Задачи поиска, сбора и анализа информации из больших объемов данных и задачи преобразования данных в доступные аналитические отчеты для конечного пользователя чрезвычайно актуальны на сегодня.

Основой процесса поиска релевантных данных является определение сущности объекта поиска и идентификация его основных атрибутов для включения в базу данных МИАС в соответствии со структурой базы данных.

Задача поиска и сбора актуальных данных сама по себе не является тривиальной, поскольку требует составления уникального словаря ключевых слов по конкретным тематическим областям, то есть составления тематического тезауруса, для поиска множества информационных источников. Для полного охвата информационного поля тематический тезаурус должен быть составлен на нескольких языках в соответствии с языками государств, в которых ведется поиск в информационной области. Полученный ранее набор источников информации используется для настройки поисковых пауков (гусениц).

Главным преимуществом MIAS является гибкость настройки гусеничных тележек.

Ползунки могут быть трех типов: ползунки, использующие RSS для получения информации, настраиваемые по принципу идентификации неизменяемой части раздела новостей путем указания шаблонов изменений адресной строки и ползунков, которые могут быть настроены для сложных структурированных сайтов с обозначением новостных блоков, эта опция включает разборку html кода источника подробной информации с помощью программного модуля "регулярные выражения".

Вторым преимуществом является организационная структура базы данных собранных данных в соответствии с поставленными задачами.

В основе базы данных лежит стандартный подход реляционного моделирования - взаимосвязь с объектами. Объекты в базе данных могут выступать как стандартные объекты (лица, организации, проекты), так и нестандартные - такие, как события. В связи с этим специалисты настраивают ползунки и процесс рубрикации в соответствии со всеми объектами, которые хранятся в базе данных.

https://cdn.pixabay.com/photo/2018/11/27/10/57/large-3841242_960_720.jpg
https://cdn.pixabay.com/photo/2018/11/27/10/57/large-3841242_960_720.jpg

Составление многоязычного тематического словаря терминов по рассматриваемым задачам.

Необходимо определить объем тематического поиска и составить список ключевых слов. Это подготовительный этап поиска информационных ресурсов и фильтрации первичного информационного шума. В рамках исследования учёными были составлены тематические тезаурусы по таким тематическим направлениям, как "Физика плазмы" (более 250 терминов и определений на русском, английском и китайском языках), "Лазерные технологии" (более 90 терминов на русском, английском и испанском языках), "Нанотехнологии" (более 100 терминов на русском и английском языках) и "Технология двойного использования".

Алгоритмы машины МИАС позволяют идентифицировать отношения между двумя различными объектами и ключевыми словами в информационных кластерах по автономному режиму. Это позволяет эксперту проводить дополнительный анализ исходящих данных и разрабатывать семантические сети, которые представлены в виде графического отображения спецификаций объектов и взаимосвязей между ними.

Существующие традиционные модели поиска позволяют идентифицировать источники информации по тематическим полям с помощью ключевых слов. Эта работа требует значительных временных затрат в связи с процессом фильтрации информации о шумах.