12 тыс подписчиков

Информационный поиск и дата майнинг

2 мая 20192 мая 2019

5 мин

Мы начинаем шестой раздел нашего курса по Искусственному Интеллекту. Если прошлый раздел был посвящён технологиям и методам Искусственного Интеллекта, то в этом модуле мы посмотрим на прикладные аспекты. Начнём с информационного поиска и дата майнинга. Поехали… Мы уже изучали методы поиска в предыдущем разделе, но тогда мы сосредоточились на поиске пути в графе, как обобщённой задаче поиска в пространстве решений некоторого целевого состояния системы. Задачу информационного поиска мы пока обходили стороной, поскольку она является очень прикладной. Но что же такое информационный поиск? Нельзя сказать, что это чистая технология Искусственного Интеллекта. Скорее, это вспомогательная технология, которая используется искусственными интеллектуальными системами для получения дополнительной информации. Особенно, если речь идёт о символьных или гибридных системах. Другими словами, информационный поиск, развившийся из первых поисковых машин в Интернете, сегодня становится неотъемлемой частью сер

Мы уже изучали методы поиска в предыдущем разделе, но тогда мы сосредоточились на поиске пути в графе, как обобщённой задаче поиска в пространстве решений некоторого целевого состояния системы. Задачу информационного поиска мы пока обходили стороной, поскольку она является очень прикладной.

Но что же такое информационный поиск? Нельзя сказать, что это чистая технология Искусственного Интеллекта. Скорее, это вспомогательная технология, которая используется искусственными интеллектуальными системами для получения дополнительной информации. Особенно, если речь идёт о символьных или гибридных системах.

Другими словами, информационный поиск, развившийся из первых поисковых машин в Интернете, сегодня становится неотъемлемой частью серьёзных интеллектуальных систем, поскольку такие системы для того, чтобы показывать высокую эффективность, должны иметь доступ ко всему корпусу знаний, накопленному к настоящему моменту человечеством.

Обычно задача информационного поиска ставится как выявление информации, удовлетворяющей с той или иной степенью поисковому запросу, из неструктурированных документов. Чаще всего поисковый запрос формализован, а вот источники информации представлены в виде неформализованных и несвязанных документов. Соответственно, с точки зрения искусственной интеллектуальной системы речь идёт об извлечении знаний из источников третьего рода.

Информационный поиск можно разделить на следующие виды: поиск по мета-данным, полнотекстовый поиск и поиск по изображениям. Кратко рассмотрим каждый вид.

Поиск по мета-данным — это наиболее простой вид информационного поиска, здесь достаточно использования самых простых алгоритмов, реализованных в системах управления базами данных. Поиск ведётся по полностью формализованной и структурированной информации на основе запроса на каком-либо формальном языке запросов.

Полнотекстовый поиск — наиболее сложный вид информационного поиска, задача которого в общем виде не решена до сих пор. Поиск ведётся по неструктурированным текстам, и чаще всего требуется найти нечто, отвечающее определённому смыслу. Это задача более высокого порядка, нежели простой поиск соответствия в корпусе текстов какой-либо входной строке (информационно-поисковые машины).

Система, осуществляющая полнотекстовый поиск, должна распознать смысл входного запроса и дать ответ в соответствии с этим смыслом. Многие методы искусственного интеллекта, как символьные, так и «грязные» направлены именно на решение этой задачи. И вот если вы вспомните наше занятие про чат-боты, то в нём описывался метод анализа естественного языка под названием «семантическая свёртка». Сегодня это очень интересное направление исследований для полнотекстового поиска документов, тема которых близка поисковому запросу.

Поиск по изображениям — обычно эта задача решается при помощи методов машинного обучения, и в последнее время в связи с возросшими вычислительными мощностями и появлением архитектур глубинного обучения она решается вполне успешно. Искусственная интеллектуальная система может найти на изображении заданную информацию, выделить лица или животных, отделить фон от изображений первого ряда и т. д.

Информационный поиск является неотъемлемой частью искусственных интеллектуальных систем, в том числе и потому, что в процессе своей работы они должны постоянно получать актуальную информацию в области своей деятельности. Это вопрос уже постоянного обучения системы, будь она построена в рамках нисходящей или восходящей парадигмы. А для осуществления информационного поиска чаще всего требуются технологии обработки естественного языка, так как большая часть знаний человечества записано именно в неформальном, неструктурированном виде.

Ну хорошо. Вот представим, что искусственная интеллектуальная система осуществила информационный поиск и получила корпус его результатов. Что дальше? А дальше она должна осуществить так называемый «дата майнинг», или интеллектуальный анализ данных. Дата майнинг — это собирательное название совокупности методов поиска в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений.

Сегодня для решения практической задачи дата майнинга используются такие методы Искусственного Интеллекта, как деревья решений, искусственные нейронные сети и другие методы машинного обучения, генетические алгоритмы и другие методы эволюционного подхода, нечёткая логика.

Также к методам дата майнинга часто относят различные статистические методы — дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей.

Представим себе базу данных огромных размеров. Ну вот та самая «биг дата», про которую так много сегодня говорят. Мы или искусственная интеллектуальная система можем предположить, что в этой биг дате содержатся какие-либо скрытые знания, которые и необходимо обнаружить.

Для того чтобы процедура дата майнинга была оправдана, скрытые знания должны обладать четырьмя свойствами: они должны быть ранее неизвестны, они должны быть нетривиальны, они должны иметь практическую полезность и их можно интерпретировать. Эти требования во многом определяют суть методов дата майнинга и то, в каком виде и в каком соотношении используются системы управления базами данных, статистические методы анализа и методы Искусственного Интеллекта.

На хорошо. Вот ИИ-система осуществила интеллектуальный анализ данных и получила новые знания. Эти знания могут быть представлены в виде продукционных правил, деревьев решений и даже математических функций. Всё это записывается в базу знаний и далее может быть использовано для дальнейшей работы ИИ-системы.

Сегодня все затронутые в нашем уроке задачи решает новая наука — наука о данных или Data Science. Пока большинство вопросов в этой науке решаются автоматизированным способом с привлечением специалистов по Data Science. Такие специалисты используют различные инструменты, типа Weka, Orange, искусственных нейронных сетей, а могут пользоваться простыми электронными таблицами — всё зависит от задачи. Но в будущем ИИ-системы смогут осуществлять интеллектуальный анализ данных полностью самостоятельно. И это здорово. Ждём и готовимся.

На этом всё. Я спешу закончить рассмотрение информационного поиска и интеллектуального анализа данных, которые осуществляются ИИ-системами. Ну а на следующем занятии мы изучим проблемы поддержки принятия решений.

Бизнес и финансы

1,13 млн интересуются