1 подписчик

БАЗА ЗНАНИЙ (sites.google.com)

15 октября 202015 окт 2020

22 мин

Оглавление

Понятия
Данные и знания
Базы данных

Понятия

Данные и знания

При изучении интеллектуальных систем традиционно возникает вопрос - что же такое знания и чем они отличаются от обычных данных, десятилетиями обрабатываемых ЭВМ. Можно предложить несколько рабочих определений, в рамках которых это становится очевидным.

Данные - это отдельные факты, характеризующие объекты, процессы и явления предметной области, а также их свойства.

При обработке на ЭВМ данные трансформируются, условно проходя следующие этапы:

1. данные как результат измерений и наблюдений;

2. данные на материальных носителях информации (таблицы, протоколы, справочники);

3. модели (структуры) данных в виде диаграмм, графиков, функций;

4. данные в компьютере на языке описания данных;

5. базы данных на машинных носителях информации.

Знания основаны на данных, полученных эмпирическим путем. Они представляют собой результат мыслительной деятельности человека, направленной на обобщение его опыта, полученного в результате практической деятельности.

Знания - это закономерности предметной области (принципы, связи, законы), полученные в результате практической деятельности и профессионального опыта, позволяющие специалистам ставить и решать задачи в этой области.

При обработке на ЭВМ знания трансформируются аналогично данным.

1. знания в памяти человека как результат мышления;

2. материальные носители знаний (учебники, методические пособия);

3. поле знаний - условное описание основных объектов предметной области, их атрибутов и закономерностей, их связывающих;

4. знания, описанные на языках представления знаний (продукционные языки, семантические сети, фреймы - см. далее);

5. база знаний на машинных носителях информации.

Часто используется такое определение знаний.

Знания - это хорошо структурированные данные, или данные о данных, или метаданные.

Базы данных

База данных — организованная в соответствии с определёнными правилами и поддерживаемая в памяти компьютера совокупность данных, характеризующая актуальное состояние некоторой предметной области и используемая для удовлетворения информационных потребностей пользователей.

Отличия баз знаний от баз данных:Базы данных:могут работать с однородными данными
представляет собой жестко структурированную модель
данные представлены в виде набора записей
Базы знаний:могут содержать разнородные и разнотипные данные
представляют собой открытую модель
знания представлены в виде семантической сети

Базы знаний

База знаний, БЗ (англ. Knowledge base, KB) — это особого рода база данных, разработанная для управления знаниями (метаданными), то есть сбором, хранением, поиском и выдачей знаний. Раздел искусственного интеллекта, изучающий базы знаний и методы работы со знаниями, называется инженерией знаний.

Под базами знаний понимает совокупность фактов и правил вывода, допускающих логический вывод и осмысленную обработку информации. В языке Пролог базы знаний описываются в форме конкретных фактов и правил логического вывода над базами данных и процедурами обработки информации, представляющих сведения и знания о людях, предметах, фактах событиях и процессах в логической форме.

Классификация баз знаний

В зависимости от уровня сложности систем, в которых применяются базы знаний, различают:

• БЗ всемирного масштаба — например, Интернет или Википедия

• БЗ национальные — например, Википедия

• БЗ отраслевые— например, Автомобильная энциклопедия

• БЗ организаций — см. Управление знаниями

• БЗ экспертных систем — см. Экспертная система

• БЗ специалистов

Интеллект человека и искусственный интеллект

В основе систем баз знаний лежат принципы работы человеческого интеллекта. Интеллектом называется способность подходить к решению какой-либо задачи с учетом имеющегося опыта. Согласно Хармону и Кингу (Harmon & King, 1985), а также Фишлеру и Фиршейну (Fischler & Firschein, 1987), для человеческого интеллекта характерны следующие свойства:

• способность обучаться;

• способность находить аналоги;

• способность создавать новые понятия на основе известных понятий эффективность обработки неоднозначных и противоречивых сообщений;

• способность определять относительную важность различных составных частей задачи;

• гибкость подхода к решению задачи;

• способность разбиения сложной задачи на составные части;

• способность моделирования воспринимаемого мира;

• понимание и способность использования символических средств.

Машинные знания — это то же, что искусственный интеллект (ИИ). Родоначальником в этой области является Алан Тьюринг, британский математик. Однако несмотря на то, что Тьюринг разработал первоначальную концепцию ИИ еще в 1937 г., официально ИИ появился только в 1956 г. Это произошло в Дартмутском колледже, во время встречи группы ученых, на которой обсуждался потенциал компьютеров в области стимуляции когнитивного процесса человека. Термин "искусственный интеллект» был предложен одним из организаторов конференции, Джоном Маккарти.

ИИ — это одна из ветвей информатики. Он связан с компьютерами, которые стимулируют процесс решения задачи путем дублирования функций человеческого мозга. ИИ включает в себя совокупность программного и аппаратного обеспечения и методов имитации свойственной человеку деятельности как умственной (мышление, принятие решений, рассуждения, решение задач, обучение и поиск данных), так и физической (сенсорные и моторные навыки). Комплексное решения задач моделируется с помощью представления когнитивного процесса человека, а когнитивное моделирование решает задачи, оценивая знания как человек.

Когнитивное моделирование и ИИ — родственные, но разные дисциплины. Когнитивное моделирование — это методика моделирования человеческого процесса познания, на котором строятся осмысленные рассуждения, а ИИ — методика моделирования разумного поведения, в котором рассуждение вовсе не обязательно. Правда, различия между двумя этими методиками постепенно стираются.

Применение баз знаний

Простые базы знаний могут использоваться для создания экспертных систем и хранения данных об организации: документации, руководств, статей технического обеспечения. Главная цель создания таких баз — помочь менее опытным людям найти существующее описание способа решения какой-либо проблемы предметной области.

Онтология может служить для представления в базе знаний иерархии понятий и их отношений. Онтология, содержащая еще и экземпляры объектов не что иное, как база знаний.

Системы основанные на знаниях реализуются на базе следующих интеллектуальных алгоритмов:

экспертные системы;
нейронные сети;
нечёткая логика;
генетические алгоритмы.

Экспертные системы

База знаний — важный компонент интеллектуальной системы. Наиболее известный класс таких программ — экспертные системы.

Экспертная система— компьютерная программа, способная частично заменить специалиста-эксперта в разрешении проблемной ситуации. Современные ЭС начали разрабатываться исследователями искусственного интеллекта в 1970-х годах, а в 1980-х получили коммерческое подкрепление.

В информатике экспертные системы рассматриваются совместно с базами знаний как модели поведения экспертов в определенной области знаний с использованием процедур логического вывода и принятия решений, а базы знаний — как совокупность фактов и правил логического вывода в выбранной предметной области деятельности.

Характерными чертами экспертной системы являются:

четкая ограниченность предметной области;
способность принимать решения в условиях неопределённости;
способность объяснять ход и результат решения понятным для пользователе способом;
четкое разделение декларативных и процедурных знаний (фактов и механизмов вывода);
способность пополнять базу знаний, возможность наращивания системы;
результат выдается в виде конкретных рекомендаций для действий в сложившейся ситуации, не уступающих решениям лучших специалистов;
ориентация на решение неформализованных (способ формализации пока неизвестен) задач;
алгоритм решения не описывается заранее, а строится самой экспертной системой;
отсутствие гарантии нахождения оптимального решения с возможностью учиться на ошибках.

Структура экспертных систем

Структура ЭС:

· Интерфейс пользователя

· Пользователь

· Интеллектуальный редактор базы знаний

· Эксперт

· Инженер по знаниям

· Рабочая (оперативная) память

· База знаний

· Решатель (механизм вывода)

· Подсистема объяснений

База знаний состоит из правил анализа информации от пользователя по конкретной проблеме. ЭС анализирует ситуацию и, в зависимости от направленности ЭС, дает рекомендации по разрешению проблемы.

Как правило, база знаний экспертной системы содержит факты (статические сведения о предметной области) и правила — набор инструкций, применяя которые к известным фактам можно получать новые факты.

Главная цель создания любой Базы знаний — сократить время и трудозатраты на решение типовых инцидентов.

Пользователь – специалист предметной области, для которого предназначена система.

Инженер по знаниям – специалист в области искусственного интеллекта, выступающий в роли промежуточного буфера между экспертом и базой знаний.

Интерфейс пользователя – комплекс программ, реализующих диалог пользователя с ЭС

БЗ – ядро ЭС, совокупность знаний предметной области

Решатель – программа, моделирующая ход рассуждений эксперта на основании знаний, имеющихся в БД

Подсистема объяснений – программа, позволяющая пользователю получить ответы на вопросы : “Как была получена та или иная рекомендация?” и “Почему система приняла такое решение?”

Классификация экспертных систем и области применения

Общепринятая классификация экспертных систем отсутствует, однако наиболее часто экспертные системы различают по назначению, предметной области, методам представления знаний, динамичности и сложности:

По назначению классификацию экспертных систем можно провести следующим образом:

диагностика состояния систем, в том числе мониторинг (непрерывное отслеживание текущего состояния)
прогнозирование развития систем на основе моделирования прошлого и настоящего
планирование и разработка мероприятий в организационном и технологическом управлении;
проектирование или выработка четких предписаний по построению объектов, удовлетворяющих поставленным требованиям;
производственные экспертные системы предназначены для повышения эффективности различных стадий производственного процесса (планирования, проектирования, производства, контроля)
автоматическое управление (регулирование)

По предметной области наибольшее количество экспертных систем используется в военном деле, геологии, инженерном деле, информатике, космической технике, математике, медицине, метеорологии, промышленности, сельском хозяйстве, управлении процессами, физике, филологии, химии, электронике, юриспруденции.

Классификация экспертных систем по методам представления знаний делит их на традиционные и гибридные. Традиционные экспертные системы используют, в основном, эмпирические модели представления знаний и исчисление предикатов первого порядка. Гибридные экспертные системы используют все доступные методы, в том числе оптимизационные алгоритмы и концепции баз данных.

По степени сложности экспертные системы делят на поверхностные и глубинные. Поверхностные экспертные системы представляют знания в виде правил «ЕСЛИ-ТО». Условием выводимости решения является безобрывность цепочки правил. Глубинные экспертные системы обладают способностью при обрыве цепочки правил определять (на основе метазнаний) какие действия следует предпринять для продолжения решения задачи. Кроме того, к сложным относятся предметные области в которых текст записи одного правила на естественном языке занимает более 1/3 страницы.

Классификация экспертных систем по динамичности делит экспертные системы на статические и динамические. Предметная область называется статической, если описывающие ее исходные данные не изменяются во времени. Статичность области означает неизменность описывающих ее исходных данных. При этом производные данные (выводимые из исходных) могут и появляться заново, и изменяться (не изменяя, однако, исходных данных).

Если исходные данные, описывающие предметную область, изменяются за время решения задачи, то предметную область называют динамической. В архитектуру динамической экспертной системы, по сравнению со статической, вводятся два компонента:

подсистема моделирования внешнего мира;
подсистема связи с внешним окружением.
Последняя осуществляет связи с внешним миром через систему датчиков и контроллеров. Кроме того, традиционные компоненты статической экспертной системы (база знаний и механизм логического вывода) претерпевают существенные изменения, чтобы отразить временную логику происходящих в реальном мире событий.

Наиболее известные ЭС и их применение

В настоящее время экспертные системы используются для решения различных типов задач в самых разнообразных проблемных областях, таких, как финансы, нефтяная и газовая промышленность, энергетика, транспорт, фармацевтическое производство, космос, химия, образование, телекоммуникации и связь и др.

Примеры ЭС:

· CLIPS — весьма популярная ЭС (public domain)

· WolframAlpha — поисковая система, интеллектуальный «вычислительный движок знаний»

· MYCIN — наиболее известная диагностическая система, которая предназначена для диагностики и наблюдения за состоянием больного при менингите и бактериальных инфекциях.

· I&W. Экспертная система помогает аналитикам из разведки предсказывать, когда и где произойдет следующее вооруженное столкновение. Система анализирует поступающие сообщения разведки, например донесения о местонахождении воинских соединений, их деятельности и передвижениях, применяя знания об обычных признаках активности войск. Знания представлены в рамках архитектуры доски объявлений, в которой для обеспечения компетентности применены как правила с прямой цепочкой рассуждений, так и фреймы. Система реализована на языке INTERLISP-D для АРМ Xerox 1100. Она разработана компанией ESL в сотрудничестве со Стенфордским университетом и доведена до уровня демонстрационного прототипа.

· ACES. Экспертная система выполняет картографические работы по нанесению обстановки на карты. Система получает в качестве исходных данных карту без обстановки и информацию, описывающую расположение объектов на местности. Система выдает карту, содержащую все желаемые условные обозначения и подписи, размещенные без взаимного наложения.

Интеллектуальные системы

Ниже перечислены интересные особенности, которые могут (но не обязаны) быть у интеллектуальной системы, и которые касаются баз знаний.

1) Машинное обучение: Это модификация своей БЗ в процессе работы интеллектуальной системы, адаптация к проблемной области. Аналогична человеческой способности «набирать опыт».

2) Автоматическое доказательство (вывод): Способность системы выводить новые знания из старых, находить закономерности в БЗ. Некоторые авторы считают, что БЗ отличается от базы данных наличием механизма вывода.

3) Интроспекция: Нахождение противоречий, нестыковок в БЗ, слежение за правильной организацией БЗ.

4) Доказательство заключения: Способность системы «объяснить» ход её рассуждений по нахождению решения, причем «по первому требованию».

Машинное обучение

Машинное обучение (англ. Machine Learning) — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении закономерностей в эмпирических данных. Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.

Машинное обучение находится на стыке математической статистики, методов оптимизации и дискретной математики, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации, интеллектуальным анализом данных.

Общая постановка задачи обучения по прецедентам

Имеется множество объектов (ситуаций) и множество возможных ответов (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она не известна. Известна только конечная совокупность прецедентов — пар «объект, ответ», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определённым образом вводится функционал качества.

Данная постановка является обобщением классических задач аппроксимации функций. В классических задачах аппроксимации объектами являются действительные числа или векторы. В реальных прикладных задачах входные данные об объектах могут быть неполными, неточными, нечисловыми, разнородными. Эти особенности приводят к большому разнообразию методов машинного обучения.

Способы машинного обучения

Так как раздел машинного обучения, с одной стороны, образовался в результате разделения науки о нейросетях на методы обучения сетей и виды топологий архитектуры сетей, а с другой, вобрал в себя методы математической статистики, то указанные ниже способы машинного обучения исходят из нейросетей. То есть базовые виды нейросетей, такие как перцептрон и многослойный перцептрон (а так же их модификации) могут обучаться как с учителем, без учителя, с подкреплением, и активно. Но некоторые нейросети и большинство статистических методов можно отнести только к одному из способов обучения. Поэтому если нужно классифицировать методы машинного обучения в зависимости от способа обучения, то, касательно нейросетей, не корректно их относить к определенному виду, а правильнее классифицировать алгоритмы обучения нейронных сетей.

1) Обучение с учителем - для каждого прецедента задаётся пара «ситуация, требуемое решение»:

- Метод коррекции ошибки

- Метод обратного распространения ошибки

2) Обучение без учителя - для каждого прецедента задаётся только «ситуация», требуется сгруппировать объекты в кластеры, используя данные о попарном сходстве объектов, и/или понизить размерность данных:

- Альфа-система подкрепления

- Гамма-система подкрепления

- Метод ближайших соседей

3) Обучение с подкреплением - для каждого прецедента имеется пара «ситуация, принятое решение»:

4) Активное обучение - отличается тем, что обучаемый алгоритм имеет возможность самостоятельно назначать следующую исследуемую ситуацию, на которой станет известен верный ответ:

5) Обучение с частичным привлечением учителя (semi-supervised learning) - для части прецедентов задается пара «ситуация, требуемое решение», а для части - только «ситуация»

6) Трансдуктивное обучение (transduction) - обучение с частичным привлечением учителя, когда прогноз предполагается делать только для прецедентов из тестовой выборки

7) Многозадачное обучение (multi-task learning) - одновременное обучение группе взаимосвязанных задач, для каждой из которых задаются свои пары «ситуация, требуемое решение»

8) Многовариантное обучение (multi-instant learning) - обучение, когда прецеденты могут быть объединены в группы, в каждой из которых для всех прецедентов имеется «ситуация», но только для одного из них (причем, неизвестно какого) имеется пара «ситуация, требуемое решение»

Классические задачи решаемые с помощью машинного обучения

- Классификация как правило, выполняется с помощью обучения с учителем на этапе собственно обучения.

- Кластеризация как правило, выполняется с помощью обучения без учителя

- Регрессия как правило, выполняется с помощью обучения с учителем на этапе тестирования, является частным случаем задач прогнозирования.

- Понижение размерности данных и их визуализация выполняется с помощью обучения без учителя

- Восстановление плотности распределения вероятности по набору данных

- Одноклассовая классификация и выявление новизны

- Построение ранговых зависимостей

Типы входных данных при обучении

- Признаковое описание объектов — наиболее распространённый случай.

- Описание взаимоотношений между объектами, чаще всего отношения попарного сходства, выражаемые при помощи матрицы расстояний, ядер либо графа данных

- Временной ряд или сигнал.

- Изображение или видеоряд.

Типы функционалов качества

При обучении с учителем - функционал качества может определяется как средняя ошибка ответов. Предполагается, что искомый алгоритм должен его минимизировать. Для предотвращения переобучения в минимизируемый функционал качества часто в явном или неявном виде добавляют регуляризатор.

При обучении без учителя - функционалы качества могут определяться по-разному, например, как отношение средних межкластерных и внутрикластерных расстояний.

При обучении с подкреплением - функционалы качества определяются физической средой, показывающей качество приспособления агента.

Практические сферы применения

Целью машинного обучения является частичная или полная автоматизация решения сложных профессиональных задач в самых разных областях человеческой деятельности.

- Машинное обучение имеет широкий спектр приложений:

- Распознавание речи

- Распознавание изображений

- Распознавание рукописного ввода

- Техническая диагностика

- Медицинская диагностика

- Прогнозирование временных рядов

- Биоинформатика

- Обнаружение мошенничества

- Обнаружение спама

- Категоризация документов

- Биржевой технический анализ

- Финансовый надзор

- Кредитный скоринг

- Предсказание ухода клиентов

- Хемоинформатика

Сфера применений машинного обучения постоянно расширяется. Повсеместная информатизация приводит к накоплению огромных объёмов данных в науке, производстве, бизнесе, транспорте, здравоохранении. Возникающие при этом задачи прогнозирования, управления и принятия решений часто сводятся к обучению по прецедентам. Раньше, когда таких данных не было, эти задачи либо вообще не ставились, либо решались совершенно другими методами.

Автоматическое доказательство

Автоматическое доказательство— доказательство, реализуемое программно. В основе лежит аппарат математической логики. Используются идеи теории искусственного интеллекта. Процесс доказательства основывается на логике высказываний и логике предикатов.

Логика высказываний (или пропозициональная логика) — это формальная теория, основным объектом которой служит понятие логического высказывания. С точки зрения выразительности, её можно охарактеризовать как классическую логику нулевого порядка. Логика высказываний является простейшей логикой, максимально близкой к человеческой логике неформальных рассуждений и известна ещё со времён античности.

Логика первого порядка (исчисление предикатов) — формальное исчисление, допускающее высказывания относительно переменных, фиксированных функций, и предикатов. Расширяет логику высказываний. В свою очередь является частным случаем логики высшего порядка.

Другие способы применения искусственного интеллекта

Наряду с системами с базой знаний существуют другие приложения ИИ, такие как игры, решение головоломок, обработка естественного языка, распознавание речи, машинное зрение, робототехника, интеллектуальное обучение, обучение машины и решение общих задач. Развитие этих направлений будет способствовать разработке более совершенных и более «похожих на человека» систем с базой знаний.

Игры и решение головоломок (например, шахматы) были первой областью приложения ИИ и инженерии знаний, где имела место имитация человеческого интеллекта и способностей по решению задач. Средства обработки естественных языков дают возможность компьютерам понимать сообщения на различных языках и осуществлять вербальные коммуникации с живыми пользователями. Они снабжены базой знаний (словарем) и в настоящее время используются для создания интерактивного интерфейса с компьютером в таких областях, как электронные таблицы, программы управления базами данных, операционные системы и системы автоматического перевода. В будущем обработка естественных языков будет использоваться для сканирования, интерпретации и обобщения массивом данных для различных прикладных систем с базой знаний. Распознавание речи и машинное зрение имитируют два наиболее важных человеческих чувства и таким образом упрощают взаимодействие живого эксперта и компьютера. Робототехника занимается копированием физических характеристик человека и их машинной реализацией. Интеллектуальное обучение применяется в основном при обучении с помощью компьютера. Обучение машины — это попытка имитации обучения человека с использованием дедуктивных и индуктивных процессов. Системы решения общих задач предназначены для решения различных видов задач, которые представлены на формальном языке, с использованием алгоритмов и эвристики.

Взгляд в будущее

Как и в других областях, настоящее инженерии знаний принадлежит реалистам, которые адаптируют технологии к удовлетворению существующих потребностей. Однако будущее инженерии знаний зависит от мечтателей, предвосхищающих появление технологий, которые будут служить людям в будущем.

В распоряжении инженеров по знаниям будет более совершенное аппаратное и программное обеспечение. Быстрое действие и большая емкость запоминающих устройств позволит использовать знания, основанные на здравом смысле, и предоставит возможность одновременно обрабатывать правила, фреймы и другие структуры знаний. Станет необходимой обработка данных с массовым параллелизмом и применение суперкомпьютеров. Программное обеспечение позволит обучение на базе опыта и обновление его базы данных. Также оно будет обладать возможностями динамического отклика на изменяющиеся входные условия или функцию. Системы с базой знаний будут полагаться на автоматизированное программное обеспечение по получению знаний. В качестве пользовательских интерфейсов будут использоваться распознавание речи и ввод рукописной информации. Коммуникации будут многоязычными, появятся возможности машинного перевода.

Приобретение знаний — это то, что ограничивает развитие систем с базой знаний. Мы сможем разработать более эффективные системы с базой знаний только в том случае, если мы лучше поймем способы обработки знаний, их хранения и поиска, свойственные человеческому разуму, а также принципы накопления человеком опыта.

У компьютера большие возможности искусственного интеллекта. Он превратится из устройства для обработки данных в устройство для обработки знаний. Обладая сенсорными связями и роботами, система с базой знаний сможет собирать и анализировать информацию, а также действовать бел вмешательства человека. Языковое программное обеспечение будет имитировать интуицию. Дополнительные технологии, такие как нейросети или «широкомасштабная» параллельная обработка, подготовят почву для появления интеллектуальных машин более высокого уровня.

СПИСОК ЛИТЕРАТУРЫ:

1. Абдикеев Н.М., Киселёв А.Д. Управление знаниями корпорации и реинжиниринг бизнеса: Учебник/ Под науч. ред. д-ра техн. наук, проф. Н.М.Абдикеева. – М.: ИНФРА-М, 2011. – 382 с. + CD-R. – (Учебники для программы MBA).

2. Гаврилова и др. Базы знаний интеллектуальных систем // Учебник для вузов. — СПб.: Питер, 2000.

3. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 2005. ISBN 5-86134-060-9.

4. Ландэ Д. В. Поиск знаний в Internet. — М.: Диалектика, 2005.

5. Wikipedia.org