Найти в Дзене
Информатика? Легко!

Кодирование текстовой инормации

Компьютер считают универсальным преобразователем информации. Тексты на естественных языках, числа, математические и специальные символы – все, что в быту или в профессиональной деятельности необходимо человеку, должно иметь возможность быть введенным в компьютер. В силу безусловного приоритета двоичной системы счисления при внутреннем представлении информации в компьютере кодирование внешних символов основывается на сопоставлении каждому из них определенной группы двоичных знаков. При этом из технических соображений и для удобства кодирования – декодирования следует пользоваться равномерными прямыми кодами. Процесс кодирования текстовой информации Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий – К и количество информации – I, можно вычислить, сколько различных символов можно закодировать: К =  =  = 256, т. е.

Компьютер считают универсальным преобразователем информации. Тексты на естественных языках, числа, математические и специальные символы – все, что в быту или в профессиональной деятельности необходимо человеку, должно иметь возможность быть введенным в компьютер.

В силу безусловного приоритета двоичной системы счисления при внутреннем представлении информации в компьютере кодирование внешних символов основывается на сопоставлении каждому из них определенной группы двоичных знаков. При этом из технических соображений и для удобства кодирования – декодирования следует пользоваться равномерными прямыми кодами.

Процесс кодирования текстовой информации

Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий – К и количество информации – I, можно вычислить, сколько различных символов можно закодировать: К =  =  = 256, т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.

Удобство побайтового кодирования символов заключается в том, что байт – наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Виды кодовых таблиц

Наиболее распространены такие международные системы байтового кодирования как: EBCDIC (Extended Binary Coded Decimal Interchange Code) и ASCII (American Standard Coded Information Interchange). Первая используется в «больших» машинах, вторая на мини- и микро- ЭВМ, включая персональные компьютеры.

Система ASCII была создана в 1963г. В своей первоначальной версии это – система семибитного кодирования, которая ограничивалась одним естественным языком (английским), цифрами, набором специальных символов, а также «управляющими» символами. В следующей версии  ASCII вышла как система байтового кодирования. В ней первые 128 символов (базовая часть) совпадают с исходными в первой версии и имеют коды с первым битом 0. Остальные коды (расширенная часть) отданы под буквы национальных алфавитов и символы псевдографики. В каждой стране своя система ASCII, но во всех странах базовые части таблиц совпадают. Таким образом, текст, записанный символами из базовой части является «интернациональным», а текст, в котором присутствуют символы «расширенной» части ASCII не может быть расшифрован в другой стране.

Для представления букв русского языка (кириллицы) в рамках ASCII было предложено несколько версий. Первоначально разработанный ГОСТ КОИ – 7 оказался по ряду причин крайне неудачным, и сейчас он не используется.

В России сейчас используется система МАК (модифицированная альтернативная кодировка). Одним из достоинств этой системы кодирования русских букв является их естественное упорядочение, что очень существенно при решении ряда задач обработки текстов.

Но даже 8-битная кодировка недостаточна для кодирования всех символов, которые хотелось бы иметь в расширенном алфавите. Сейчас широко используется 16-битная кодировка Unicode, которая допускает 65536 кодовых комбинаций. Это позволяет одновременно закодировать все буквы всех европейских языков, а также буквы греческого алфавита и большое количество специальных символов.

Подписывайтесь на мой блог и следите за появлением новых статей.
Учёба может быть легкой - просто зайди на мой блог!