Найти в Дзене
loverybak

Теория информации и ее применение при организации информационных систем

Введение Теория информации — раздел прикладной математики, радиотехники (теория обработки сигналов) и информатики, относящийся к измерению количества информации, её свойств и устанавливающий предельные соотношения для систем передачи данных. Как и любая математическая теория, теория оперирует математическими моделями, а не реальными физическими объектами (источниками и каналами связи). Использует, главным образом, математический аппарат теории вероятностей и математической статистики. Основные разделы теории информации — кодирование источника (сжимающее кодирование) и канальное (помехоустойчивое) кодирование. Теория информации тесно связана с информационной энтропией, коммуникационными системами, криптографией и другими смежными дисциплинами. Область находится на пересечении математики, статистики, информатики, физики, нейробиологии, информационной инженерии и электротехники. Теория также нашла применение в других областях, включая статистический вывод, обработку естественного языка,
Оглавление

Введение

Теория информации — раздел прикладной математики, радиотехники (теория обработки сигналов) и информатики, относящийся к измерению количества информации, её свойств и устанавливающий предельные соотношения для систем передачи данных. Как и любая математическая теория, теория оперирует математическими моделями, а не реальными физическими объектами (источниками и каналами связи). Использует, главным образом, математический аппарат теории вероятностей и математической статистики.

Основные разделы теории информации — кодирование источника (сжимающее кодирование) и канальное (помехоустойчивое) кодирование.

Теория информации тесно связана с информационной энтропией, коммуникационными системами, криптографией и другими смежными дисциплинами. Область находится на пересечении математики, статистики, информатики, физики, нейробиологии, информационной инженерии и электротехники.

Теория также нашла применение в других областях, включая статистический вывод, обработку естественного языка, криптографию, нейробиологию, человеческое зрение, эволюцию и функцию молекулярных кодов (биоинформатика), выбор статистической модели, теплофизику, квантовые вычисления, лингвистику, выявление плагиата, распознавание образов и выявление аномалий. Важные подразделы теории информации включают в себя сжатие данных, канальное кодирование, алгоритмическую теорию сложности, алгоритмическую теорию информации, информационно-теоретическую безопасность, реляционный анализ Грея и измерение информации.

Появление теории информации связано с опубликованием Клодом Шенноном работы «Математическая теория связи» в 1948 году.

С точки зрения Шеннона, теория информации — раздел математической теории связи. Теория информации устанавливает основные границы возможностей систем передачи информации, задает исходные принципы их разработки и практического воплощения.

Круг задач теории информации представляется с помощью структурной схемы, типичной системы передачи или хранения информации.

Схема системы связи
Схема системы связи

В схеме источником является любой объект вселенной, порождающий сообщения, которые должны быть перемещены в пространстве и времени.

Независимо от изначальной физической природы, все подлежащие передаче сообщения обычно преобразуются в форму электрических сигналов, такие сигналы и рассматриваются как выход источника.

Кодер источника представляет информацию в наиболее компактной форме. Кодер канала обрабатывает информацию для защиты сообщений от помех при передаче по каналу связи или возможных искажений при хранении информации.

Модулятор преобразовывает сообщения, формируемые кодером канала, в сигналы, согласованные с физической природой канала связи или средой накопителя информации.

Среда распространения информации (канал связи) вносит в процесс передачи информации случайный шум, который искажает сообщение и тем самым затрудняет его прочтение. Блоки, расположенные на приёмной стороне, выполняют обратные операции и предоставляют получателю информацию в удобном для восприятия виде.

Теория информации и ее применение при организации информационных систем

Энтропия, негэнтропия

Энтропия

В теории информации энтропия случайной величины - это средний уровень "информации", "неожиданности" или "неопределенности", присущий возможным результатам переменной.

Понятие информационной энтропии было введено Клодом Шенноном в его статье 1948 года "Математическая теория коммуникации" и также упоминается как энтропия Шеннона. Теория Шеннона определяет систему передачи данных, состоящую из трех элементов: источника данных, канала связи и приемника. "Фундаментальная проблема коммуникации", как выразился Шеннон, заключается в том, что получатель не может определить, какие данные были сгенерированы источником, на основе сигнала, который он получает по каналу. Шеннон рассмотрел различные способы кодирования, сжатия и передачи сообщений из источника данных и доказал в своей знаменитой теореме о кодировании исходного кода, что энтропия представляет собой абсолютный математический предел того, насколько хорошо данные из источника могут быть сжаты без потерь в совершенно бесшумный канал. Шеннон значительно усилил этот результат для зашумленных каналов в своей теореме о кодировании с зашумленным каналом.

Энтропия в теории информации прямо аналогична энтропии в статистической термодинамике. Аналогия возникает, когда значения случайной величины обозначают энергии микросостояний, поэтому формула Гиббса для энтропии формально идентична формуле Шеннона. Энтропия имеет отношение к другим областям математики, таким как комбинаторика и машинное обучение. Определение может быть получено из набора аксиом, устанавливающих, что энтропия должна быть мерой того, насколько "неожиданным" является средний результат переменной. Для непрерывной случайной величины дифференциальная энтропия аналогична энтропии.

Негэнтропия

Впервые понятие «отрицательной энтропии» предложил в 1943 году австрийский физик Эрвин Шрёдингер в популярной книге «Что такое жизнь?». В ней он пытался продолжить идеи своего коллеги Нильса Бора о глубокой связи физических и философских законов, согласно которым сформулированный Нильсом Бором принцип дополнительности мог объединить общечеловеческие знания до простого понимания единства мира.

Позже американский физик Леон Бриллюэн в своей работе «Научная неопределенность и информация» сократил термин «отрицательная энтропия» до негэнтропия и ввёл его в таком виде при помощи негэнтропийного принципа информации в теорию информации. Эрвин Шрёдингер объясняет, как живая система экспортирует энтропию, чтобы поддержать свою собственную энтропию на низком уровне. При помощи термина негэнтропия он мог выразить свою идею кратко: живая система импортирует негэнтропию для самосохранения.

В простом понимании, энтропияхаос, саморазрушение и саморазложение. Соответственно, негэнтропия — движение к упорядочиванию, к организации системы. По отношению к живым системам: для того, чтобы не погибнуть, живая система борется с окружающим хаосом путём организации и упорядочивания последнего, то есть импортируя негэнтропию. Таким образом объясняется поведение самоорганизующихся систем.

Свойство аддитивности систем

Аддитивность (лат. additivus — прибавляемый) — свойство величин, состоящее в том, что значение величины, соответствующее целому объекту, равно сумме значений величин, соответствующих его частям, в некотором классе возможных разбиений объекта на части. Например, аддитивность объёма означает, что объём целого тела равен сумме объёмов составляющих его частей.

Свойство физической аддитивности проявляется у системы, как бы распавшейся на независимые элементы. В этом крайнем случае и говорить, в принципе о системе, нельзя.

Свойство диссипативности систем

Диссипативная система (или диссипативная структура, от лат. dissipatio — «рассеиваю, разрушаю») — это открытая система, которая оперирует вдали от термодинамического равновесия. Иными словами, это устойчивое состояние, возникающее в неравновесной среде при условии диссипации (рассеивания) энергии, которая поступает извне. Диссипативная система иногда называется ещё стационарной открытой системой или неравновесной открытой системой.

Диссипативная система характеризуется спонтанным появлением сложной, зачастую хаотичной структуры. Отличительная особенность таких систем — несохранение объёма в фазовом пространстве, то есть невыполнение Теоремы Лиувилля.

Простым примером такой системы являются ячейки Бенара. В качестве более сложных примеров называются лазеры, капельный кластер, реакция Белоусова — Жаботинского, циркуляция атмосферы и биологическая жизнь.

Термин «диссипативная структура» введен Ильёй Пригожиным.

Последние исследования в области диссипативных структур позволяют делать вывод о том, что процесс самоорганизации происходит гораздо быстрее при наличии в системе внешних и внутренних шумов. Таким образом, шумовые эффекты приводят к ускорению процесса самоорганизации.

Эмерджентность, интегративность

Эмерджентность

Эмерджентность в теории систем — наличие у системы свойств, не присущих её компонентам по отдельности; несводимость свойств системы к сумме свойств её компонентов.

В биологии и экологии понятие эмерджентности можно выразить так: одно дерево — не лес, скопление отдельных клеток — не организм. Например, свойства биологического вида или биологической популяции не представляют собой свойства отдельных особей, понятия рождаемость, смертность неприменимы к отдельной особи, но применимы к популяции или виду в целом.

В эволюционистике выражается как возникновение новых функциональных единиц системы, которые не сводятся к простым перестановкам уже имевшихся элементов.

В почвоведении: эмерджентным свойством почвы является плодородие.

В классификации систем эмерджентность может являться основой их систематики как критериальный признак системы.

Интегративность

Этот термин часто употребляют как синоним целостности. Однако им подчеркивают интерес не к внешним факторам проявления целостности, а к более глубоким причинам формирования этого свойства и, главное, — к его сохранению. Интегративными называют системообразующие, снстемоохраняющие факторы, важными среди которых важную роль играют:

1.Стремление их вступать в коалиции.

В связи с этим отметим, что носителем целостного знания о мире являются философские концепции, опираясь на которые можно дополнить закономерность интегративности рекомендациями, базирующимися на законы диалектики.

2.Закономерности иерархической упорядоченности систем.

Эта группа закономерностей тесно связана с закономерностью целостности, с расчленением целого на части. Однако она характеризует и взаимодействие системы с ее окружением – со средой, надсистемой, подсистемами.

3.Коммуникативность.

Эта закономерность составляет основу определения Садовского и Юдина, данного нами выше, из которого следует, что система не изолирована от других систем, она связана множеством коммуникаций со средой, представляющей собой, в свою очередь, сложное и неоднородное образование, содержащее надсистему (систему более высокого порядка, задающую требования и ограничения исследуемой системе), подсистемы (нижележащие, подведомственные системы) и системы одного уровня с рассматриваемой.

Такое сложное единство со средой названо закономерностью коммуникативности, которая, в свою очередь, легко помогает перейти к иерархичности, как закономерности построения всего мира и любой выделенной из него системы.

Бифуркация и точки бифуркации

Бифуркация (от лат. bifurcus «раздвоенный») — всевозможные качественные перестройки или метаморфозы различных объектов при изменении параметров, от которых они зависят.

Теория бифуркаций динамических систем — это теория, которая изучает изменения качественной картины разбиения фазового пространства в зависимости от изменения параметра (или нескольких параметров).

Центральным понятием теории бифуркации является понятие (не)грубой системы. Берётся какая-либо динамическая система и рассматривается такое (много)параметрическое семейство динамических систем, что исходная система получается в качестве частного случая — при каком-либо одном значении параметра (параметров). Если при значении параметров, достаточно близких к данному, сохраняется качественная картина разбиения фазового пространства на траектории, то такая система называется грубой. В противном случае, если такой окрестности не существует, то система называется негрубой.

Таким образом в пространстве параметров возникают области грубых систем, которые разделяются поверхностями, состоящими из негрубых систем. Теория бифуркаций изучает зависимость качественной картины при непрерывном изменении параметра вдоль некоторой кривой. Схема, по которой происходит изменение качественной картины называется бифуркационной диаграммой.

Основные методы теории бифуркаций — это методы теории возмущений. В частности, применяется метод малого параметра (Понтрягина).

Точка бифуркации — критическое состояние системы, при котором система становится неустойчивой относительно флуктуаций и возникает неопределённость: станет ли состояние системы хаотическим или она перейдёт на новый, более дифференцированный и высокий уровень упорядоченности.

Свойства точки бифуркации:

1. Непредсказуемость. Обычно точка бифуркации имеет несколько веточек аттрактора (устойчивых режимов работы), по одному из которых пойдёт система. Однако заранее невозможно предсказать, какой новый аттрактор займёт система.

2. Точка бифуркации носит кратковременный характер и разделяет более длительные устойчивые режимы системы.

3. Лавинный эффект хеш-функций предусматривает запланированные точки бифуркации, преднамеренно вносящие непредсказуемые для наблюдателя изменения конечного вида хеш-строки при изменении даже единого символа в исходной строке.

Детерминированные и недетерминированные системы

Автоматизация системы, прежде работавшей исключительно по человеческой инициативе, делает её полностью детерминированной. Новая система способна к действию лишь в случаях, явным образом запланированных её создателями. Так что свойство самоизлечения теряется. Любой ответ, который может потребоваться, должен быть изначально заложен в систему. Если, когда‑либо возникнет необходимость излечить систему, это можно будет сделать лишь вне контекста её работы. Техники разберут систему и воссоздадут её, добавив один или более запланированных ответов.

С одной стороны, возможность избавиться от неуправляемых и запутанных возможностей самоизлечения – положительное свойство автоматизации. Система сразу проектируется «правильно», и потом уже не возникает нужды что‑то подправлять в процессе работы. Однако не секрет, что это может обходиться дорого. Автоматизаторы проводят много времени, придумывая ситуации настолько маловероятные, что люди, работавшие в прежней системе, вряд ли задумались бы о них до тех пор, пока не возникла бы необходимость одну из таких ситуаций разрешить. Если бизнес‑правила, регулирующие новую систему, изначально предусматривают достаточную степень адхократии, ошибкой будет автоматизировать систему. Детерминизм в этом случае не является достоинством, потому что система будет постоянно нуждаться в обслуживании.

Источник способности недетерминированных систем самоизлечиваться безболезненно и элегантно (а иногда и бесплатно) – это люди, работающие в системе и знакомые с её основополагающими целями. Когда возникает новая ситуация, они уже знают, какие действия имеют смысл. Возможно, в будущем мы сможем обучать компьютеры целям системы, а не действиям, выполняемым для достижения целей, но пока что это недоступно. Идея в том, что преобразование системы в детерминированную приводит к потере её способности к самоизлечению.

Организация, в которой вы трудитесь или руководите, в каком‑то смысле представляет собой систему. Это сплав взаимодействующих людей и процессов, существующий с какой‑то целью. В наше время очень модно обсуждать, как делать такие системы более детерминированными. Что подводит нас к предмету Методологии.

Стохастичность

Случайный (стохастический) процесс — изменение системы c не детерминированным поведением: последующее состояние такой системы описывается как величинами, которые могут быть предсказаны, так и случайными. Однако, по М. Кацу и Э. Нельсону, любое развитие процесса во времени (неважно, детерминированное или вероятностное) при анализе в терминах вероятностей будет случайным процессом; иными словами, все процессы, имеющие развитие во времени, с точки зрения теории вероятностей — стохастические.

Принцип максимума информационной энтропии

Принцип максимальной энтропии — это понятие теории вероятности, представляющее собой утверждение, что распределение вероятностей, которое наилучшим образом отражает текущее состояние данных — это распределение с наибольшей информационной энтропией.

В анализе данных этот принцип используется для построения статистических классификаторов. Как известно, энтропия — это мера неопределенности некоторого вероятностного распределения:

H(x)=−∑p(x)logp(x)

С практической точки зрения, чем выше энтропия как мера неопределенности, тем сложнее делать предсказания класса. Поэтому можно предположить, что для улучшения качества классификации энтропию множества нужно уменьшать. В пределе мы получим единственный класс, предсказание которого будет полностью достоверным.

Противоположной будет ситуация, когда классы равновероятны и неопределенность классификации максимальна, как и энтропия.

Классификаторы на основе критерия максимума энтропии похожи на логистическую регрессию. Только минимизируется в этом случае не логарифмическое правдоподобие, а энтропия.

Принцип был впервые изложен Э. Т. Джейнсом в 1957 г.

Фьючерсные прогнозы

Фьючерсные исследования, фьючерсные исследования или футурология — это систематическое, междисциплинарное и целостное изучение социального и технологического прогресса, а также других экологических тенденций, часто с целью изучения того, как люди будут жить и работать в будущем.

Могут применяться методы прогнозирования, такие как прогнозирование, но современные исследователи будущего подчеркивают важность систематического изучения альтернатив. В целом, его можно рассматривать как раздел социальных наук и расширение области истории. Исследования будущего (в просторечии называемые многими специалистами в этой области "фьючерсами") направлены на то, чтобы понять, что, вероятно, будет продолжаться, а что может измениться. Таким образом, часть дисциплины стремится к систематическому и основанному на шаблонах пониманию прошлого и настоящего, а также к изучению возможности будущих событий и тенденций.

Жизненный цикл программного средства

Под жизненным циклом ПС (software life cycle) понимают весь период его разработки и эксплуатации (использования), начиная от момента возникновения замысла ПС и кончая прекращением всех видов его использования. Жизненный цикл охватывает довольно сложный процесс создания и использования ПС (software process). Этот процесс может быть организован по-разному для разных классов ПС и в зависимости от особенностей коллектива разработчиков.

В настоящее время можно выделить 5 основных подходов к организации процесса создания и использования ПС.

1.Водопадный подход. При таком подходе разработка ПС состоит из цепочки этапов. На каждом этапе создаются документы, используемые на последующем этапе. В исходном документе фиксируются требования к ПС. В конце этой цепочки создаются программы, включаемые в ПС.

2.Исследовательское программирование. Этот подход предполагает быструю (насколько это возможно) реализацию рабочих версий программ ПС, выполняющих лишь в первом приближении требуемые функции. После экспериментального применения реализованных программ производится их модификация с целью сделать их более полезными для пользователей. Этот процесс повторяется до тех пор, пока ПС не будет достаточно приемлемо для пользователей. Такой подход применялся на ранних этапах развития программирования, когда технологии программирования не придавали большого значения (использовалась интуитивная технология). В настоящее время этот подход применяется для разработки таких ПС, для которых пользователи не могут точно сформулировать требования (например, для разработки систем искусственного интеллекта).

3.Прототипирование. Этот подход моделирует начальную фазу исследовательского программирования вплоть до создания рабочих версий программ, предназначенных для проведения экспериментов с целью установить требования к ПС. В дальнейшем должна последовать разработка ПС по установленным требованиям в рамках какого-либо другого подхода (например, водопадного).

4.Формальные преобразования. Этот подход включает разработку формальных спецификаций ПС и превращение их в программы путем корректных преобразований. На этом подходе базируется компьютерная технология (CASE-технология) разработки ПС.

5.Сборочное программирование. Этот подход предполагает, что ПС конструируется, главным образом, из компонент, которые уже существуют. Должно быть некоторое хранилище (библиотека) таких компонент, каждая из которых может многократно использоваться в разных ПС. Такие компоненты называются повторно используемыми (reusable). Процесс разработки ПС при данном подходе состоит скорее из сборки программ из компонент, чем из их программирования.

Исследовательское программирование исходит из взгляда на программирование как на искусство. Оно применяется тогда, когда водопадный подход не применим из-за того, что не удается точно сформулировать требования к ПС. Прототипирование рассматривается как вспомогательный подход, используемый в рамках других подходов, в основном, для прояснения требований к ПС. Компьютерной технологии (включая обсуждение жизненного цикла ПС, созданного по этой технологии) будет посвящена отдельная лекция. Сборочное программирование мы в нашем курсе рассматривать не будем, хотя о повторно используемых программных модулях мы говорить будем, обсуждая свойства программных модулей.

В рамках водопадного подхода различают следующие стадии жизненного цикла ПС: разработку ПС, производство программных изделий (ПИ) и эксплуатацию ПС.

Стадии и фазы жизненного цикла ПС.
Стадии и фазы жизненного цикла ПС.

Стадия разработки (development) ПС состоит из этапа его внешнего описания, этапа конструирования ПС, этапа кодирования (программирование в узком смысле) ПС и этапа аттестации ПС. Всем этим этапам сопутствуют процессы документирования и управления (management) ПС. Этапы конструирования и кодирования часто перекрываются, иногда довольно сильно. Это означает, что кодирование некоторых частей программного средства может быть начато до завершения этапа конструирования.

Этап внешнего описания ПС включает процессы, приводящие к созданию некоторого документа, который мы будем называть внешним описанием (requirements document) ПС. Этот документ является описанием поведения ПС с точки зрения внешнего по отношению к нему наблюдателя с фиксацией требований относительно его качества. Внешнее описание ПС начинается с анализа и определения требований к ПС со стороны пользователей (заказчика), а также включает процессы спецификации этих требований. Конструирование (design) ПС охватывает процессы: разработку архитектуры ПС, разработку структур программ ПС и их детальную спецификацию.

Кодирование (coding) ПС включает процессы создания текстов программ на языках программирование, их отладку с тестированием ПС.

На этапе аттестации (acceptance) ПС производится оценка качества ПС. Если эта оценка оказывается приемлемой для практического использования ПС, то разработка ПС считается законченной. Это обычно оформляется в виде некоторого документа, фиксирующего решение комиссии, проводящей аттестацию ПС.

Программное изделие (ПИ) - экземпляр или копия разработанного ПС. Изготовление ПИ — это процесс генерации и/или воспроизведения (снятия копии) программ и программных документов ПС с целью их поставки пользователю для применения по назначению. Производство ПИ — это совокупность работ по обеспечению изготовления требуемого количества ПИ в установленные сроки. Стадия производства ПИ в жизненном цикле ПС является, по существу, вырожденной (не существенной), так как представляет рутинную работу, которая может быть выполнена автоматически и без ошибок. Этим она принципиально отличается от стадии производства различной техники. В связи с этим в литературе эту стадию, как правило, не включают в жизненный цикл ПС.

Стадия эксплуатации ПС охватывает процессы хранения, внедрения и сопровождения ПС, а также транспортировки и применения ПИ по своему назначению. Она состоит из двух параллельно проходящих фаз: фазы применения ПС и фазы сопровождения ПС.

Применение (operation) ПС — это использование ПС для решения практических задач на компьютере путем выполнения ее программ.

Сопровождение (maintenance) ПС — это процесс сбора информации о качестве ПС в эксплуатации, устранения обнаруженных в нем ошибок, его доработки и модификации, а также извещения пользователей о внесенных в него изменениях.

Список источников

Наилучшей наградой за наш труд будет ваша подписка - это признание нашей работы и мотивация для дальнейших достижений.