Найти в Дзене

Интеллектуальный анализ данных

Интеллектуальный анализ данных (Data Mining) означает выявление информации разного рода (неизвестной заранее) путем целенаправленной экстраполяции из баз данных.

Методы и стратегии, применяемые в операциях интеллектуального анализа данных, в значительной степени автоматизированы и состоят из специального программного обеспечения и алгоритмов. На сегодняшний день в основном используются нейронные сети, деревья решений, кластеризация и ассоциативный анализ. Интеллектуальный анализ данных находит применение в самых разных областях: экономической, научной, производственной и т.д.

Для объяснения, что такое интеллектуальный анализ данных, в одной из публикаций предлагалось попробовать ответить на странные вопросы типа «Как продавать смартфоны семидесятилетнему целевому потребителю» или «Может ли черная дыра скрываться в центре удаленной, недавно открытой галактики».

Ответ на эти вопросы может содержаться (и вероятно, содержится) в разного рода базах данных, накопленных озерах данных. Проблема в том, что обработать бесконечные массивы разнородных данных человеку в приемлемые сроки затруднительно. Именно здесь нужен инструмент, который в этих массивах данных находит ассоциации, аномалии и повторяющиеся шаблоны (паттерны), а в конечном счете, нужную информацию. Благодаря высокому параллелизму используемых вычислительных ресурсов он делает это с эффективностью, намного превышающей возможности человека.

-2

Вот благодаря интеллектуальному анализу данных можно обнаружить (вымышленный пример), что семидесятилетние потребители покупают смартфоны, как правило, в торговых центрах, взаимодействуя с продавцами-женщинами, и что люди с детьми и внуками готовы заплатить больше, в то время как больные, например, сахарным диабетом не поддаются на соблазн обладать современной техникой. То есть отдельные фрагменты информации имеют неожиданные корреляции, что свидетельствует о полезности интеллектуального анализа данных для выявления скрытых ассоциаций для разработки оптимальных стратегий. В данном случае маркетинговых, но точно так же можно обнаружить черную дыру в галактике, сверив данные о поведении составляющих галактику небесных тел.

Короче говоря, интеллектуальный анализ данных означает, что из разнородной информации, беспорядочно разбросанной по базам данных (текстовые, мультимедийные, смешанные данные и т. д.), мы можем получать знания, и использовать их для различных целей. Весь процесс называется KDD (аббревиатура от Knowledge Discovery in Databases - «обнаружение знаний в базах данных»), и на самом деле он не заканчивается собственно процедурой интеллектуального анализа данных.
На самом деле последовательность KDD состоит из нескольких шагов, основными из которых являются:

  • определение цели, которую необходимо достичь;
  • предварительный отбор данных, полезных для достижения цели;
  • очистка и предварительная обработка данных – разделение достоверных и бесполезных данных, выбор способа обработки неполных или пустых полей, окончательный выбор фундаментальной информации для идеальной эталонной модели;
  • преобразование – допустим ли формат, в котором представлены данные, для передачи в программное обеспечение для анализа или данные должны быть преобразованы;
  • интеллектуальный анализ данных – программное обеспечение, подходящее для конкретного случая сканирует хранилище данных, чтобы найти ответ. Интеллектуальный анализ данных обычно состоит из нескольких подэтапов, при необходимости повторяющихся несколько раз, для уточнения процедуры и постепенной проверки достигнутых результатов;
  • интерпретация результатов – достигнута ли цель, и если ответ отрицательный, происходит повторение (с возможной модификацией) предыдущих шагов;
  • отображение результатов в понятном формате.

В ВИШ МИФИ Data Mining изучается на последнем семестре магистратуры. Это не самый простой предмет, для его изучения нужно иметь знания в области программирования и работы с базами данных.

Продолжение следует.

-3

Магистратура ВИШ МИФИ готовит специалистов в области цифровой трансформации жизни, цифровой трансформации экономики, цифровой трансформации технологии и индустрии.