Найти в Дзене

Форматы данных

Оглавление

Перед вами карта компетенций системного аналитика и сегодня мы поговорим про форматы данных.

Карта компетенций системного аналитика
Карта компетенций системного аналитика

Мы разберем три наиболее распространенных формата и начнем с самого простого – csv.

CSV

Формат csv
Формат csv

Допустим, у нас есть в базе данных какая-то сводная таблица или вьюха с данными о продажах за декабрь 2023 года. Тут есть Id товара, дата, на которую подсчитаны продажи, стоимость и количество проданного товара. Записи этой таблицы можно представить в формате csv как вы видите на экране. Такой формат удобен для выгрузки данных и для работы с алгоритмами машинного обучения. На основе такого файла, например, можно построить предсказательную модель количества проданных товаров исходя из сезонности и стоимости товара.

XML и XSD

Следующих формат это XML он, пожалуй, самый сложный для восприятия. Такой файл размечается тегами и хранит внутри себя данные с разными уровнями вложенности. Тут уже речь идет не об одной сводной таблице, а целой группе связанных между собой таблиц.

Формат XML
Формат XML

Их можно представить в виде xml файла. Такие файлы используются для выгрузок и для обмена данными между различными системами. Правда в последнее время xmlиспользуется все реже и вы, скорее всего столкнетесь с ним только в какой-нибудь легаси части.

Ну и говоря про xml нельзя не поговорить и про xsd. Вот так будет выглядеть xsd схема для нашего xml:

XSD
XSD

Страшно, очень страшно… Но это только потому, что мы пока не знаем, что это такое. На самом деле это просто описание такого xml, где указаны типы данных, наименования полей и т.д. Такая схема полезна, чтобы понять, как устроен xml и какие вообще данные каких типов в нем могут быть. Его полезно уметь читать. Уметь формировать такую схему на основе конкретной структуры данных необязательно. Это делается в относительно автоматизированном режиме.

JSON

Ну и наконец json. Он проще. И чаще используется для передачи данных между системами, передачи данных с бека на фронт и так далее. И вот так наши таблицы будут выглядеть в json:

Формат JSON
Формат JSON

Про этот формат стоит почитать подробнее и самое главное научиться формировать такие jsonы под конкретные наборы данных. Это вам точно пригодится.

Заключение

В заключении повторим основные моменты:

  • Данные можно выгружать в различных форматах.
  • CSV больше подходит для выгрузки данных из отдельных таблиц или вьюх и довольно удобен, например, для обучения алгоритмов машинного обучения.
  • XML и Json используются для выгрузки более сложных структур данных и для обмена данными между системами, между сервисами, между фронтом и беком. Причем чаще всего вы в работе будете сталкиваться именно с форматом json.
Наука
7 млн интересуются