Перед вами карта компетенций системного аналитика и сегодня мы поговорим про форматы данных. Мы разберем три наиболее распространенных формата и начнем с самого простого – csv. CSV Допустим, у нас есть в базе данных какая-то сводная таблица или вьюха с данными о продажах за декабрь 2023 года. Тут есть Id товара, дата, на которую подсчитаны продажи, стоимость и количество проданного товара. Записи этой таблицы можно представить в формате csv как вы видите на экране. Такой формат удобен для выгрузки данных и для работы с алгоритмами машинного обучения...
Перевели статью инженера Рахула Бхатии из компании Clairvoyant о том, какие есть форматы файлов в больших данных, какие самые распространенные функции форматов Hadoop и какой формат лучше использовать. Зачем нужны разные форматы файлов Серьезное узкое место в производительности приложений с поддержкой HDFS, таких как MapReduce и Spark — время поиска, чтения, а также записи данных. Эти проблемы усугубляются трудностями в управлении большими наборами данных, если у нас не фиксированная, а эволюционирующая схема, или присутствуют некие ограничения на хранение...