Найти в Дзене
Информатика Дзен

Тема 1.2 Подходы к измерению информации

Информация и её свойства являются объектом исследования  целого ряда научных дисциплин, таких как:  • теория информации (математическая теория систем передачи  информации);  • кибернетика (наука об общих закономерностях процессов  управления и передачи информации в машинах, живых ор- ганизмах и обществе); • информатика (изучение процессов сбора, преобразования, хра- нения, защиты, поиска и передачи всех видов информации и  средств их автоматизированной обработки);  • семиотика (наука о знаках и знаковых системах);  • теория массовой коммуникации (исследование средств массовой информации и их влияния на общество) и др. Рассмотрим более детально подходы к определению понятия  информации, важные с позиций её измерения: 1) определение К. Шеннона, применяемое в математической  теории информации; 2) определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров. 2.1. Содержательный подход к измерению информации Клод Шеннон, разрабатывая теорию св

Информация и её свойства являются объектом исследования 

целого ряда научных дисциплин, таких как: 

• теория информации (математическая теория систем передачи 

информации); 

• кибернетика (наука об общих закономерностях процессов 

управления и передачи информации в машинах, живых ор-

ганизмах и обществе);

• информатика (изучение процессов сбора, преобразования, хра-

нения, защиты, поиска и передачи всех видов информации и 

средств их автоматизированной обработки); 

• семиотика (наука о знаках и знаковых системах); 

• теория массовой коммуникации (исследование средств массовой информации и их влияния на общество) и др.

Рассмотрим более детально подходы к определению понятия 

информации, важные с позиций её измерения:

1) определение К. Шеннона, применяемое в математической 

теории информации;

2) определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров.

2.1. Содержательный подход

к измерению информации

-2

Клод Шеннон, разрабатывая теорию связи, предложил характеризовать информативность сообщения содержащейся в нём 

полезной информацией, т. е. той частью сообщения, которая снимает полностью или уменьшает существующую до её получения 

неопределённость какой-либо ситуации.

Клод Элвуд Шеннон (1916–2001) — американский инженер и математик. Является основателем 

теории информации, нашедшей применение в современных высокотехнологических системах связи. 

В 1948 году предложил использовать слово «бит» 

для обозначения наименьшей единицы информации.

Информация — это снятая неопределённость. Величина неопределённости некоторого события — это количество возможных результатов (исходов) данного события.

Сообщение, уменьшающее неопределённость знания в 2 раза, несёт 1 бит информации.

Такой подход к измерению информации называют содержательным.

Количество информации i, содержащееся в сообщении об одном из N равновероятных результатов некоторого события, определяется из  решения уравнения 2^i = N

Пример 1. Допустим, вы подбрасываете монету, загадывая, 

что выпадет: «орёл» или «решка». Перед подбрасыванием монеты 

неопределённость знания о результате равна двум. Действительно, есть всего два возможных результата этого события (бросания монеты). Эти результаты мы считаем равновероятными, т. к. ни 

один из них не имеет преимущества перед другим. 

После того как конкретный исход стал известен (например, 

подброшенная монета упала «орлом» вверх), неопределённость 

уменьшилась в 2 раза. Таким образом, сообщение о том, что 

подброшенная монета упала «орлом» вверх, несёт в себе 1 бит 

информации

2.2. Алфавитный подход к измерению информации

Определение количества информации на основе уменьшения неопределённости наших знаний рассматривает информацию с  точки зрения её содержания, понятности и новизны для человека С этой точки зрения в примере о подбрасывании монеты одинаковое количество информации содержит и зрительный образ упавшей монеты, и короткое сообщение «Орёл», и длинная фраза 

«В результате подбрасывания монета упала так, что на её видимой части изображён орёл». 

Однако при хранении и передаче информации с помощью технических устройств целесообразно отвлечься от её содержания и рассматривать информацию как последовательность символов 

(букв, цифр, кодов цвета точек изображения и т. д.) некоторого 

алфавита.

Информация —последовательность символов (букв, цифр, кодов 

цвета точек изображения и т. д.) некоторого алфавита.

Минимальная мощность алфавита, пригодного для кодирования информации, равна 2. Такой алфавит называется двоичным

Один символ двоичного алфавита несёт 1 бит информации.

Согласно Колмогорову, количество информации, содержащейся в последовательности символов, определяется минимально возможным количеством двоичных знаков, необходимых для кодирования этой последовательности, безотносительно к содержанию 

представленного ею сообщения. Данный подход к определению 

количества информации называют алфавитным.

Андрей Николаевич Колмогоров
Андрей Николаевич Колмогоров

Андрей Николаевич Колмогоров (1903–1987) — один из крупнейших математиков ХХ века. Им получены основополагающие результаты в математической логике, теории сложности алгоритмов, теории информации, теории множеств и ряде других областей математики и её приложений.

Информационным объёмом сообщения называется количество двоичных символов, которое используется для кодирования этого сообщения. В двоичном коде один двоичный разряд несёт 1 бит информации.

В отличие от определения количества информации по Колмогорову в определении информационного объёма не требуется, чтобы число двоичных символов было минимально возможным. 

При оптимальном кодировании понятия количества информации 

и информационного объёма совпадают.

Из курса информатики основной школы вы знаете, что двоичные коды бывают равномерные и неравномерные. Равномерные 

коды в кодовых комбинациях содержат одинаковое число симво-

лов, неравномерные — разное.

Первый равномерный двоичный код был изобретён французом 

Жаном Морисом Бодо в 1870 году. В коде Бодо используются 

сигналы двух видов, имеющие одинаковую длительность и абсолютную величину, но разную полярность. Длина кодов всех 

символов алфавита равна пяти

Фрагмент кодовой таблицы кода Бодо
Фрагмент кодовой таблицы кода Бодо

Всего с помощью кода Бодо можно составить 2^5 = 32 комбинации.

Пример 5. Слово WORD, закодированное с помощью кода 

Бодо, будет выглядеть так

-5

Информационный объём такого сообщения равен 20 битам; 

таково количество двоичных символов, которое используется для кодирования этого сообщения.

Из курса информатики основной школы вам известно, что с 

помощью i-разрядного двоичного кода можно закодировать алфа-

вит, мощность N которого определяется из соотношения 2^i = N. 

Иными словами, зная мощность используемого алфавита всегда 

можно вычислить информационный вес символа - минимально возможное количество бит, требуемое для кодирования символов этого алфавита. При этом информационный вес символа должен быть выражен целым числом.

Соотношение для определения информационного веса символа ал-

фавита можно получить и из следующих соображений.

Пусть N — мощность алфавита, используемого для кодирования 

сообщений. При этом в каждом конкретном сообщении какие-то 

символы алфавита будут использоваться чаще, какие-то — реже, а какие-то — не будут использоваться вообще. Не станем обращать на это внимание, наоборот, будем считать, что любой из символов может появиться в сообщении с равной вероятностью. Другими словами, появление в сообщении очередного символа — одно из N равновероятных событий. Но количество информации i, содержащееся в сообщении об одном из N равновероятных результатов некоторого события, определяется из решения уравнения 2^i = N.

Алгоритм вычисления информационного объёма сообщения выглядит так:

1) определить мощность используемого алфавита N;

2) из соотношения 2^i= N определить i — информационный вес символа алфавита в битах (длину двоичного кода символа из 

используемого алфавита мощности N);

3) вычислить информационный объём сообщения I, умножив информационный вес символа i на количество символов в сооб-

щении K.

При алфавитном подходе информационный объём сообщения I, состоящего из K символов, вычисляется по формуле:

I = K · i,

где i — информационный вес символа в битах, связанный с мощ-

ностью используемого алфавита N соотношением 2^i= N.