Перед вами карта компетенций системного аналитика и сегодня мы поговорим про форматы данных.
Мы разберем три наиболее распространенных формата и начнем с самого простого – csv.
CSV
Допустим, у нас есть в базе данных какая-то сводная таблица или вьюха с данными о продажах за декабрь 2023 года. Тут есть Id товара, дата, на которую подсчитаны продажи, стоимость и количество проданного товара. Записи этой таблицы можно представить в формате csv как вы видите на экране. Такой формат удобен для выгрузки данных и для работы с алгоритмами машинного обучения. На основе такого файла, например, можно построить предсказательную модель количества проданных товаров исходя из сезонности и стоимости товара.
XML и XSD
Следующих формат это XML он, пожалуй, самый сложный для восприятия. Такой файл размечается тегами и хранит внутри себя данные с разными уровнями вложенности. Тут уже речь идет не об одной сводной таблице, а целой группе связанных между собой таблиц.
Их можно представить в виде xml файла. Такие файлы используются для выгрузок и для обмена данными между различными системами. Правда в последнее время xmlиспользуется все реже и вы, скорее всего столкнетесь с ним только в какой-нибудь легаси части.
Ну и говоря про xml нельзя не поговорить и про xsd. Вот так будет выглядеть xsd схема для нашего xml:
Страшно, очень страшно… Но это только потому, что мы пока не знаем, что это такое. На самом деле это просто описание такого xml, где указаны типы данных, наименования полей и т.д. Такая схема полезна, чтобы понять, как устроен xml и какие вообще данные каких типов в нем могут быть. Его полезно уметь читать. Уметь формировать такую схему на основе конкретной структуры данных необязательно. Это делается в относительно автоматизированном режиме.
JSON
Ну и наконец json. Он проще. И чаще используется для передачи данных между системами, передачи данных с бека на фронт и так далее. И вот так наши таблицы будут выглядеть в json:
Про этот формат стоит почитать подробнее и самое главное научиться формировать такие jsonы под конкретные наборы данных. Это вам точно пригодится.
Заключение
В заключении повторим основные моменты:
- Данные можно выгружать в различных форматах.
- CSV больше подходит для выгрузки данных из отдельных таблиц или вьюх и довольно удобен, например, для обучения алгоритмов машинного обучения.
- XML и Json используются для выгрузки более сложных структур данных и для обмена данными между системами, между сервисами, между фронтом и беком. Причем чаще всего вы в работе будете сталкиваться именно с форматом json.