Найти в Дзене
serovodovorot

1. Информация и табличные редакторы

Информация - сведения, воспринимаемые человеком и (или) специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации (ГОСТ 7.0-99). Согласно современным представлениям, информация считается нематериальной, а то, что содержится в структуре объектов, принято называть данными (набор фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств). Что касается хранения информации, на компьютерах она хранится в файлах. Файл – поименованная область на носителе, содержащая данные определенной длины, обладающая уникальным собственным именем. Имя файла состоит из двух частей – названия файла и расширения. Название файла определяется пользователем, а расширение говорит о типе файла. Обычно расширение отделяется от имени файла точкой и определяет какими программами может быть открыт файл. Тип файлов На примере файла "Отчёт.xls" получается, что пользователь назвал файл "Отчёт"
Оглавление

Введение

Информация - сведения, воспринимаемые человеком и (или) специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации (ГОСТ 7.0-99).

Согласно современным представлениям, информация считается нематериальной, а то, что содержится в структуре объектов, принято называть данными (набор фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств).

По форме представления информация бывает:

  • Текстовая (Последовательность символов) — передаваемая в виде символов, предназначенных обозначать лексемы языка.
  • Числовая (Вещественные и целые числа) — в виде цифр и знаков (символов), обозначающих математические действия.
  • Графическая — в виде изображений, графиков, фотографий, схем.
  • Звуковая — устная или в виде записи и передачи лексем языка аудиальным путём (речь, музыка).
  • Видеоинформация — передаваемая в виде видеозаписи (фильмы, анимация).

Хранение информации на ПК

Что касается хранения информации, на компьютерах она хранится в файлах.

Файл – поименованная область на носителе, содержащая данные определенной длины, обладающая уникальным собственным именем.

Имя файла состоит из двух частей – названия файла и расширения.

Название файла определяется пользователем, а расширение говорит о типе файла. Обычно расширение отделяется от имени файла точкой и определяет какими программами может быть открыт файл.

Расширение

Тип файлов

  • txt, doc, docx, rtf, pdf
  • текстовые файлы
  • xls, xlsx, xltm, csv, ods, otd
  • табличные файлы
  • jpg, png, tiff, svg
  • изображения
  • exe
  • исполняемые файлы

На примере файла "Отчёт.xls" получается, что пользователь назвал файл "Отчёт", а его расширение "xls", то есть файл предназначен для открытия табличным редактором (например, MS Excel, Мой Офис, Libre Office и т.д.)

Расширения табличных данных.

Для хранения табличных данных наиболее распространёнными являются расширения xls, xlsx, csv и ods.

Для примера я создал файл "Продукты.xls" и сохранил его также в форматах xlsx, csv и ods.

​

Как видно, файлы занимают разный объём памяти компьютера, что связано с хранением дополнительной информации (оформление, типы данных и т.д.).

  • XLS — расширение, созданное компанией Microsoft при разработке Excel (полный список расширений от Microsoft).
  • XLSX — современная версия XLS, доступный начиная с Microsoft Office Excel 2007. При записи файлов используется сжатие, поэтому xlsx занимает меньше места, но на старых версиях Excel не сможет быть открыт.
  • ODS — аналог XLS от приложений OpenOffice и StarOffice.

При сохранении файлов с расширением xls / xlsx / ods каждый раз при открытии файла на будет встречать таблица такого вида:

​
  • CSV — формат файлов, для хранения таблиц в текстовой форме. При сохранении в формате CSV пропадает любое форматирование таблиц и ячеек, но зато файл занимает мало места, не имеет ограничений количества строк и столбцов и может быть открыт любым текстовым редактором (например, программой блокнот). CSV удобен для хранения большого количества информации и её отправки, но не позволяет осуществлять автоматическую аналитику при открытии файла (цифры, даты, формулы будут преобразованы в обычный текст).
​

При сохранении файла с расширением csv пропало всё форматирование: ширина столбцов, рамки, числовой формат в столбце "Итого"

Проблемы с кодировкой

Пожалуй, все при открытии файлов сталкивались с ситуацией, когда там вместо понятных букв нас встречает набор символов.

​

Либо в MS Word открывалось окно с предложением выбрать кодировку.

​

Почему так происходит?

Дело в том, что вся компьютерная техника работает за счёт электричества и единственным для него мерилом является электрон, а точнее его наличие или отсутствие (либо его состояние). Только два состояния. Одно из них обозначили 0 (нет электрона) и 1 (есть электрон).

Одна ячейка, где может находиться электрон, названа битом информации.

Но в значении одной ячейки, где хранится 0 или 1, невозможно сохранить букву или иную цифру, поэтому было решено: 8 ячеек (байт) будет достаточно для сохранения любой информации.

​

Таким образом, если ячейка - наш атом, то байт (8 соседствующих ячеек) - уже молекула, которая несёт информацию. Этого количества информации достаточно для кодировки 28 (256 символов). Каждому символу присваивается уникальный двоичный код от 00000000 до 11111111, а запись в виде последовательности 0 и 1 также называют записью в двоичной системе.

​

Выше указана классическая таблица кодировки ASCII, здесь каждому числу сопоставлен символ.

Путаница с символами происходит из-за того, что существует несколько таких таблиц (например, таблицы кодировок КОИ8-Р, Windows, MS-DOS, Macintosh, Unicode и ISO). При открытии файла автоматически выбирается не та таблица и нам предстаёт нечитаемое заклинание.

Чаще всего используют кодировки Unicode UTF-8 и UTF-16.

Таким образом, встретив нечитаемый набор символов, необходимо попробовать найти соответствующую кодировку либо открыть файл другим табличным редактором и пересохранить с нужной Вам кодировкой.

Проблемы с кодировкой: не гадать, а решать

Теперь, когда мы знаем почему возникают "кракозябры", научимся решать эту проблему проактивно.

Как правильно открыть CSV в Excel (способ, который всегда работает):
Не используйте двойной клик по файлу. Вместо этого:

  1. В Excel перейдите на вкладку «Данные».
  2. Выберите «Получение данных» -> «Из текста/CSV».
  3. Выберите файл. Появится окно предпросмотра с возможностью выбрать кодировку (например, UTF-8, Windows-1251, ANSI).
  4. Подберите кодировку так, чтобы текст в предпросмотре отображался корректно. Затем нажмите «Загрузить».

Этот метод снимает 99% проблем, так как вы контролируете процесс до загрузки данных в лист.

Что такое BOM?
Для файлов в кодировке UTF-8 иногда используют специальную метку в начале файла —
BOM (Byte Order Mark). Она помогает программам однозначно определить кодировку. Для Excel её наличие часто является решающим фактором для корректного открытия кириллицы. Если ваш UTF-8 файл без BOM читается неправильно, попробуйте сохранить его с BOM (эта опция есть в продвинутых текстовых редакторах, например, Notepad++).

Рекомендация: Для минимизации проблем договоритесь в команде или с заказчиком использовать UTF-8 с BOM как стандартную кодировку для всех текстовых файлов с данными. Это самый универсальный вариант

Форматы данных: детали, которые решают

Мы разобрали основные расширения. Теперь — ключевые нюансы, которые критически важны для работы с данными, а не просто с файлами.

CSV: Простота, в которой есть подвохи
Формат CSV (Comma-Separated Values) — это не просто "текстовый файл с таблицей". Его правильное чтение зависит от двух параметров:

  • Разделитель столбцов (delimiter): Им может быть не только запятая, но и точка с запятой (;), табуляция или другой символ. Проблема: если в самих данных (например, в названии товара) встречается символ-разделитель, строка "сломается". Пример: Яблоки, кг,100 будет интерпретировано как три разных столбца.
  • Ограничитель текста (text qualifier): Чтобы решить проблему выше, текстовые поля часто заключают в кавычки. Корректная запись: "Яблоки, кг",100. Тогда все внутри кавычек — это одно значение.
❗ Практический совет: Прежде чем открывать CSV в Excel, откройте его в Блокноте или другом текстовом редакторе. Это мгновенно покажет реальную структуру файла: разделитель, кавычки и потенциальные проблемы.

Ограничения форматов: почему это важно знать

  • XLS: Максимум 65 536 строк и 256 столбцов. Если выгрузить из современной системы больше данных — они будут обрезаны без предупреждения.
  • XLSX: Поддерживает до 1 048 576 строк и 16 384 столбцов. Для большинства задач этого достаточно.
  • XLSB: Малоизвестный, но мощный двоичный формат Excel. Файлы открываются и сохраняются значительно быстрее, занимают меньше места, чем XLSX. Идеален для огромных таблиц с формулами. Минус — менее универсален, не все сторонние программы умеют его читать.

Вывод: Выбор формата — это не просто "сохранить как". Это решение, влияющее на сохранность данных, скорость работы и возможность их дальнейшей обработки.