Один и тот же датасет в разных форматах хранится по‑разному: CSV пишет строки текстом, Parquet группирует значения по колонкам на диске, Arrow держит колонки в непрерывных блоках памяти. Давайте подробнее рассмотрим каждый вариант. Если что, оригинал лежит тут. 1️⃣ CSV - текст, строка за строкой CSV - это обычный текст: одна строка = одна запись, значения разделены запятыми (или табами). Пример того, как данные выглядят в файле (буквально): name,age,city Kanwal,30,New York Qasim,25,Edmonton Типы не “вшиты” в файл - при чтении их обычно нужно определять заново, потому что внутри всё строки. На больших объёмах чтение и парсинг начинают заметно тормозить. 2️⃣ Parquet - бинарный колоночный формат (на диске) Parquet хранит данные колонками: не “строка1‑строка2…”, а “все значения столбца вместе”, поэтому выборочное чтение и сжатие работают лучше. Если взять тот же пример, смысл хранения можно представить так: Names: Kanwal, Qasim Ages: 30, 25 Cities: New York, Edmonton Схема (типы) храни
CSV vs Parquet vs Arrow: что быстрее в ML‑пайплайнах
13 января13 янв
1 мин