Здравствуй и хорошей, товарищ!
Меня зовут Тюрин Роман, и это канал "Симпличные условия", где о сложном говорится просто. Это уже четвертая часть истории про тексты, поэтому если ты пропустил первые три, то прошу тебя обязательно их прочесть:
Часть 1 - шифр Морзе, код Бодо и Мюррея, понятие бита
Часть 2 - кодировка ASCII - как прочесть это слово и что это. Проблема национальных кодировок и причина появления крокозябр
Часть 3 - что за таблица со всеми символами и языками и что за UTF-8, про который все говорят?
Я задумал рассказать по мелкой крупице о каждом текстовом формате файлов. Однако осознал: для объяснения их различий, нужно добавить еще одно понятие в наше уравнение. Отсюда взяла начало идея создания 4 части.
Сегодня ты узнаешь:
- Что такое расширение файла? Как его узреть смертному?
- Метаданные - жуем то, что не видим
- Рубрика "Эээээксперименты"
- Страшные байки из блога Касперского
Что такое расширение файла? Как его узреть смертному?
Возможно, эта информация будет новой, а возможно, ты узнаешь это в первый раз, но у всех файлов в компьютере есть расширение. Оно несет в себе информацию, по которой система может понять, как ей работать с файлом.
Расширение - это то, что стоит после названия файла через точку. Если ты вдруг ничего не видишь, то зайди в "Этот компьютер" - Вид - поставь галочку на "Расширение имен файлов".
В операционной системе Mac OS инструкции следующие:
1. Выбери «Finder» > «Настройки», затем нажми «Дополнения».
2. Установи флажок перед «Показывать все расширения имен файлов».
Расширение позволяет узнать, с каким файлом мы имеем дело. Если это mp3 - то это песня, если mp4 - то уже видео, если txt - значит, текст. Если расширения нет, то компьютер либо будет считать файл текстовым, потому что текст - это основа всего. Из текста легче превратить в биты.
Расширение после точки указывает на формат файла - то есть то, к какой же категории он принадлежит. У текста есть много форматов: открывающийся в Microsoft Word, в OpenDocument, в Google Docs. У видеофайлов ты мог видеть качество хуже (3gp) и лучше (BDRip).
Короче говоря, те три-четыре буквы после точки в названии файла, называются расширением и позволяют выявить формат файла. А формат файла - какая программа его откроет и для чего он нужен. Это как лист дерева позволяет узнать, что за тип деревьев стоит перед тобой. Липкий лист - липа, есть 5 ответвлений - клен. А вот форматов люди придумали просто уйму.
Я даже вообще удивился и подумал было: а можно ли сделать проще? Как ты думаешь?
В таблице выше - расширения текстовых файлов, о форматах которых я хочу рассказать. Мне кажется, что это даже не все. Либо не все из них нужны и актуальны. Поправь меня в комментариях, о каких расширениях я забыл, а тебе хотелось бы услышать.
Метаданные - жуем то, что не видим
Везде в текстовых документах - текст. Но почему тогда существует так много форматов?
Видел, какие красивые заголовки можно сделать в Microsoft Word? А замечал, что в Google Docs эта же разметка не ложится? При скачивании книг замечал разницу между txt, epub и pdf? Дело в том, что кроме текста есть... кое-что еще.
Это информация об оформлении документа: какой размер букв у заголовка, какой отступ от краев, жирный ли шрифт, название шрифта... И это еще только заголовок! А представь, что это целый документ! Там и размеры страницы, и время создания, и примененные эффекты... Это всё называется одним словом - метаданные.
Мета, как ты, возможно, помнишь, переводится как "за пределами", "после". Поэтому метаданные - это данные, которые лежат поверх текста. Не буду грузить сложными конструкциями. Люди нашего века обожают фотографии: возьму одну из своих для демонстрации метаданных.
Можно просто нажать правой кнопкой мыши по изображению, выбрать пункт "Свойства", а там вкладку "Подробно".
Стандартный вариант Windows почти не показывает метаданные, которые есть в этом снимке. А вот облачные хранилища эту информацию отлично видят. Попробуем использовать сайт по просмотру метаданных - https://www.metadata2go.com.
В этих метаданных содержится всё:
- Когда я сделал снимок - 2022:05:24 14:18:26
- Какое у меня оборудование для съемки: HDR+ 1.0.345618096zdy
- Что за модель телефона: moto g(9) plus (odessa)
- На каком расстоянии от меня стоял фотограф: 0.838 m
- Под каким углом держалась камера: 47.4 градуса
- Куча информации о насыщенности цвета, экспозиции, выдержке, фокусном расстоянии и прочем.
А что еще удивительно: точное место съемки: 55 градусов северной широты, 49 градусов восточной долготы. Вот это место на карте. Снимок точно сделан там.
А если еще распознано лицо, то будут храниться его опорные точки, по которым можно определить, что это ты. Страшно?
А что поделать: таков нынешний мир. Однако, отставим разговоры о хранении личной информации. Ты теперь знаешь, что метаданные есть. Но почему все же форматов текстовых файлов так много? Ответ этому простой.
Microsoft, Adobe, Google и другие компании, когда создают форматы, ориентируются не на разработки друг друга, а на создание нового продукта, который уже "точно будет удобнее других". С нуля. Отсюда и разнообразие форматов. Не спорю, что есть некоторые специфичные форматы, используемые в отраслях: json, csv, html. Но есть и огромное количество мусора в рядах текстовых файлов.
Рубрика "Эээээксперименты"
Что метаданные есть - это понятно. Но какие они? Где хранятся, прячутся от нас в системе? Начну эксперимент. Создам файл с названием simple.odt (создано в программе LibreOffice - бесплатном аналоге Microsoft Word).
Теперь изменю расширение в simple.odt на simple.docx, расширение Майкрософта. Всё открывается!
А теперь в совместную разработку Microsoft и Adobe - расширение RTF: тоже открывается, с тем же форматированием.
А теперь пробую simple.pdf:
Не удалось. Но самое странное, и, если бы не следующий шаг, интересное - это то, что происходит с файлом, если поменять расширение на html (язык разметки веб-страниц) или txt(обычный блокнот).
Ну мы с тобой точно знаем, что это, да? Кодировка сбилась. Зашифровано в одной, а мы видим в другой! Я тоже так подумал и прогнал текст через определение кодировки. Но результат нулевой. Даже с убранной картинкой. Поэтому остается лишь остаться с носом и статьей!
Дело в том, что эти метаданные могут считывать лишь программы, которые их создали, либо они обратно совместимы(об этом в другой статье). Вот и секрет их крабсбургера.
Что известно точно: метаданные о том, как размещать картинку, оформлять текст и заголовок, файл не потерял ни при одной смене формата. Эти данные хранятся в самом документе, а в нужной программе вроде Word или LibreOffice становятся не так видны, как в txt, а используются программой.
Если сравнить это с машиной, метаданные, что создаются в таких текстовых редакторах - это как плавный старт и мгновенное торможение у авто. Мы точно не ручаемся, как это работает, но это есть в характеристиках машины кроме ее цвета и модели. А вот в формате txt посмотреть на это - значит, полезть в нутро машины без знаний.
Но вот удивительное дело - если создать просто текстовый файл, абсолютно пустой, то у него все равно будут метаданные...а файл будет весить
0 байт.
Такие метаданные называются системными: имя автора, название и размер файла, даты создания, изменения и так далее. Они хранятся в файловой системе. Она организована на манер книги и имеет что-то вроде оглавления: там хранится огромный перечень наименований, дат и мест файлов. Однако, это тема отдельной статьи про файловые системы. Напиши ниже в комментариях, было бы интересно услышать про это.
Страшные байки из блога Касперского
Ну и под конец немного страшных историй из интернет-журнала. Их будет две:
- Одной черной-черной ночью 2003 года одно английское-английское правительство опубликовало отчет о наличии у Ирака оружия массового поражения... а в этом doc-файле сохранились данные о 10 авторах! (если точнее, то тех, кто сохранил последние 10 редакций) А это уже претензия на достоверность. С тех пор английское-английское правительство хранит файлы в формате PDF: говорят, там метаданных меньше..вроде бы.
- Жил был вице-президент некой компании, назовем его Гоша. Уволился как-то раз Гоша из этой компании и перебежал в другую - да госконтракт ценный прихватил с собой. Когда Гоше сказали, что он его украл, он сказал "бе-бе-бе, ничего не докажете: коммерческое предложение у другой компании вышло раньше". И предоставил Гоша документ с этим предложением, но на адрес иностранного государства, которое не должно было угрожать интересам компании. Но злодея Гошу раскрыли две вещи:
- Согласно системным метаданным документа, последнее сохранение файла произошло раньше, чем последняя печать, чего не могло быть. (Дело в том, что дата последней печати сохраняется в документе только при сохранении самого файла. Если документ напечатать, а файл после этого не сохранить, новая дата печати в него не запишется.)
- На корпоративном сервере документ появился уже после начала разбирательства. На этих двух фактах юристы разбили нерадивого бизнесмена и добились компенсации аж в 20 млн долларов!
Надеюсь, теперь, когда ты будешь встречать слово "метаданные", ты будешь знать, что это. И после этой переходной статьи, думаю, я могу поведать тебе о форматах текста и для чего каждый предназначен.
Надеюсь, статья была полезной. Пиши комментарии, нажимай на кнопку "подписаться", ставь лайк этой статье - увидимся в тексте следующей!