Найти тему
Симпличные условия

Как текст хранится в компьютере? Часть 4.

Оглавление

Здравствуй и хорошей, товарищ!

Меня зовут Тюрин Роман, и это канал "Симпличные условия", где о сложном говорится просто. Это уже четвертая часть истории про тексты, поэтому если ты пропустил первые три, то прошу тебя обязательно их прочесть:

Часть 1 - шифр Морзе, код Бодо и Мюррея, понятие бита

Часть 2 - кодировка ASCII - как прочесть это слово и что это. Проблема национальных кодировок и причина появления крокозябр

Часть 3 - что за таблица со всеми символами и языками и что за UTF-8, про который все говорят?

Я задумал рассказать по мелкой крупице о каждом текстовом формате файлов. Однако осознал: для объяснения их различий, нужно добавить еще одно понятие в наше уравнение. Отсюда взяла начало идея создания 4 части.

Сегодня ты узнаешь:

  1. Что такое расширение файла? Как его узреть смертному?
  2. Метаданные - жуем то, что не видим
  3. Рубрика "Эээээксперименты"
  4. Страшные байки из блога Касперского

Что такое расширение файла? Как его узреть смертному?

Возможно, эта информация будет новой, а возможно, ты узнаешь это в первый раз, но у всех файлов в компьютере есть расширение. Оно несет в себе информацию, по которой система может понять, как ей работать с файлом.

Расширение - это то, что стоит после названия файла через точку. Если ты вдруг ничего не видишь, то зайди в "Этот компьютер" - Вид - поставь галочку на "Расширение имен файлов".

-2

В операционной системе Mac OS инструкции следующие:

1. Выбери «Finder» > «Настройки», затем нажми «Дополнения».

2. Установи флажок перед «Показывать все расширения имен файлов».

-3

Расширение позволяет узнать, с каким файлом мы имеем дело. Если это mp3 - то это песня, если mp4 - то уже видео, если txt - значит, текст. Если расширения нет, то компьютер либо будет считать файл текстовым, потому что текст - это основа всего. Из текста легче превратить в биты.

-4

Расширение после точки указывает на формат файла - то есть то, к какой же категории он принадлежит. У текста есть много форматов: открывающийся в Microsoft Word, в OpenDocument, в Google Docs. У видеофайлов ты мог видеть качество хуже (3gp) и лучше (BDRip).

Короче говоря, те три-четыре буквы после точки в названии файла, называются расширением и позволяют выявить формат файла. А формат файла - какая программа его откроет и для чего он нужен. Это как лист дерева позволяет узнать, что за тип деревьев стоит перед тобой. Липкий лист - липа, есть 5 ответвлений - клен. А вот форматов люди придумали просто уйму.

-5

Я даже вообще удивился и подумал было: а можно ли сделать проще? Как ты думаешь?

-6

В таблице выше - расширения текстовых файлов, о форматах которых я хочу рассказать. Мне кажется, что это даже не все. Либо не все из них нужны и актуальны. Поправь меня в комментариях, о каких расширениях я забыл, а тебе хотелось бы услышать.

Метаданные - жуем то, что не видим

Везде в текстовых документах - текст. Но почему тогда существует так много форматов?

-7

Видел, какие красивые заголовки можно сделать в Microsoft Word? А замечал, что в Google Docs эта же разметка не ложится? При скачивании книг замечал разницу между txt, epub и pdf? Дело в том, что кроме текста есть... кое-что еще.

Это информация об оформлении документа: какой размер букв у заголовка, какой отступ от краев, жирный ли шрифт, название шрифта... И это еще только заголовок! А представь, что это целый документ! Там и размеры страницы, и время создания, и примененные эффекты... Это всё называется одним словом - метаданные.

Мета, как ты, возможно, помнишь, переводится как "за пределами", "после". Поэтому метаданные - это данные, которые лежат поверх текста. Не буду грузить сложными конструкциями. Люди нашего века обожают фотографии: возьму одну из своих для демонстрации метаданных.

Это я созерцаю на выставке современного искусства полотно Андрея Верещагина -  "Белая Троица".
Это я созерцаю на выставке современного искусства полотно Андрея Верещагина - "Белая Троица".

Можно просто нажать правой кнопкой мыши по изображению, выбрать пункт "Свойства", а там вкладку "Подробно".

-9

Стандартный вариант Windows почти не показывает метаданные, которые есть в этом снимке. А вот облачные хранилища эту информацию отлично видят. Попробуем использовать сайт по просмотру метаданных - https://www.metadata2go.com.

-10

В этих метаданных содержится всё:

  • Когда я сделал снимок - 2022:05:24 14:18:26
  • Какое у меня оборудование для съемки: HDR+ 1.0.345618096zdy
  • Что за модель телефона: moto g(9) plus (odessa)
  • На каком расстоянии от меня стоял фотограф: 0.838 m
  • Под каким углом держалась камера: 47.4 градуса
  • Куча информации о насыщенности цвета, экспозиции, выдержке, фокусном расстоянии и прочем.

А что еще удивительно: точное место съемки: 55 градусов северной широты, 49 градусов восточной долготы. Вот это место на карте. Снимок точно сделан там.

-11

А если еще распознано лицо, то будут храниться его опорные точки, по которым можно определить, что это ты. Страшно?

-12

А что поделать: таков нынешний мир. Однако, отставим разговоры о хранении личной информации. Ты теперь знаешь, что метаданные есть. Но почему все же форматов текстовых файлов так много? Ответ этому простой.

-13

Microsoft, Adobe, Google и другие компании, когда создают форматы, ориентируются не на разработки друг друга, а на создание нового продукта, который уже "точно будет удобнее других". С нуля. Отсюда и разнообразие форматов. Не спорю, что есть некоторые специфичные форматы, используемые в отраслях: json, csv, html. Но есть и огромное количество мусора в рядах текстовых файлов.

Рубрика "Эээээксперименты"

Что метаданные есть - это понятно. Но какие они? Где хранятся, прячутся от нас в системе? Начну эксперимент. Создам файл с названием simple.odt (создано в программе LibreOffice - бесплатном аналоге Microsoft Word).

Теперь изменю расширение в simple.odt на simple.docx, расширение Майкрософта. Всё открывается!

А теперь в совместную разработку Microsoft и Adobe - расширение RTF: тоже открывается, с тем же форматированием.

-15

А теперь пробую simple.pdf:

-16

Не удалось. Но самое странное, и, если бы не следующий шаг, интересное - это то, что происходит с файлом, если поменять расширение на html (язык разметки веб-страниц) или txt(обычный блокнот).

Ну мы с тобой точно знаем, что это, да? Кодировка сбилась. Зашифровано в одной, а мы видим в другой! Я тоже так подумал и прогнал текст через определение кодировки. Но результат нулевой. Даже с убранной картинкой. Поэтому остается лишь остаться с носом и статьей!

-18

Дело в том, что эти метаданные могут считывать лишь программы, которые их создали, либо они обратно совместимы(об этом в другой статье). Вот и секрет их крабсбургера.

Что известно точно: метаданные о том, как размещать картинку, оформлять текст и заголовок, файл не потерял ни при одной смене формата. Эти данные хранятся в самом документе, а в нужной программе вроде Word или LibreOffice становятся не так видны, как в txt, а используются программой.

Если сравнить это с машиной, метаданные, что создаются в таких текстовых редакторах - это как плавный старт и мгновенное торможение у авто. Мы точно не ручаемся, как это работает, но это есть в характеристиках машины кроме ее цвета и модели. А вот в формате txt посмотреть на это - значит, полезть в нутро машины без знаний.

-19

Но вот удивительное дело - если создать просто текстовый файл, абсолютно пустой, то у него все равно будут метаданные...а файл будет весить

0 байт.

-20

Такие метаданные называются системными: имя автора, название и размер файла, даты создания, изменения и так далее. Они хранятся в файловой системе. Она организована на манер книги и имеет что-то вроде оглавления: там хранится огромный перечень наименований, дат и мест файлов. Однако, это тема отдельной статьи про файловые системы. Напиши ниже в комментариях, было бы интересно услышать про это.

Страшные байки из блога Касперского

Ну и под конец немного страшных историй из интернет-журнала. Их будет две:

  • Одной черной-черной ночью 2003 года одно английское-английское правительство опубликовало отчет о наличии у Ирака оружия массового поражения... а в этом doc-файле сохранились данные о 10 авторах! (если точнее, то тех, кто сохранил последние 10 редакций) А это уже претензия на достоверность. С тех пор английское-английское правительство хранит файлы в формате PDF: говорят, там метаданных меньше..вроде бы.
  • Жил был вице-президент некой компании, назовем его Гоша. Уволился как-то раз Гоша из этой компании и перебежал в другую - да госконтракт ценный прихватил с собой. Когда Гоше сказали, что он его украл, он сказал "бе-бе-бе, ничего не докажете: коммерческое предложение у другой компании вышло раньше". И предоставил Гоша документ с этим предложением, но на адрес иностранного государства, которое не должно было угрожать интересам компании. Но злодея Гошу раскрыли две вещи:
  1. Согласно системным метаданным документа, последнее сохранение файла произошло раньше, чем последняя печать, чего не могло быть. (Дело в том, что дата последней печати сохраняется в документе только при сохранении самого файла. Если документ напечатать, а файл после этого не сохранить, новая дата печати в него не запишется.)
  2. На корпоративном сервере документ появился уже после начала разбирательства. На этих двух фактах юристы разбили нерадивого бизнесмена и добились компенсации аж в 20 млн долларов!
-21

Надеюсь, теперь, когда ты будешь встречать слово "метаданные", ты будешь знать, что это. И после этой переходной статьи, думаю, я могу поведать тебе о форматах текста и для чего каждый предназначен.

Надеюсь, статья была полезной. Пиши комментарии, нажимай на кнопку "подписаться", ставь лайк этой статье - увидимся в тексте следующей!

-22