Найти в Дзене
IT for Dummies

Хватай тиски и начинай давить!

Компрессия - процедура перекодирования данных, производимая с целью уменьшения их объёма; то же, что сжатие данных. Компрессия в системах хранения данных — это технология, которая позволяет уменьшить объём хранимых данных, сжимая их прямо внутри системы хранения. Это помогает экономить место, ускорять доступ к данным и снижать нагрузку на сеть. Если ты сохраняешь файл в систему хранения, СХД перед записью сжимает его (примерно как архив ZIP), а при чтении — распаковывает на лету. Сохранять больше данных на том же объёме дисков. Снижать расходы на покупку дополнительного хранилища. Ускорять передачу данных по сети (сжатый файл = меньше байт). Повышать эффективность бэкапов и виртуальных машин. Инлайн-компрессия — данные сжимаются прямо при записи (в ZFS, Pure Storage, NetApp и др.). Постпроцессинг-компрессия — данные сначала пишутся, потом фоново сжимаются (например, в некоторых бэкап-системах). LZ4 — быстро, умеренно эффективно. ZSTD — баланс между скоростью и сжатием. GZIP (Deflate) —
Оглавление

Компрессия - процедура перекодирования данных, производимая с целью уменьшения их объёма; то же, что сжатие данных.

Чего ???

Компрессия в системах хранения данных — это технология, которая позволяет уменьшить объём хранимых данных, сжимая их прямо внутри системы хранения. Это помогает экономить место, ускорять доступ к данным и снижать нагрузку на сеть.

Простое объяснение:

Если ты сохраняешь файл в систему хранения, СХД перед записью сжимает его (примерно как архив ZIP), а при чтении — распаковывает на лету.

Зачем это нужно в СХД:

Сохранять больше данных на том же объёме дисков.

Снижать расходы на покупку дополнительного хранилища.

Ускорять передачу данных по сети (сжатый файл = меньше байт).

Повышать эффективность бэкапов и виртуальных машин.

Как работает компрессия в СХД:

Инлайн-компрессия — данные сжимаются прямо при записи (в ZFS, Pure Storage, NetApp и др.).

Постпроцессинг-компрессия — данные сначала пишутся, потом фоново сжимаются (например, в некоторых бэкап-системах).

Примеры алгоритмов:

LZ4 — быстро, умеренно эффективно.

ZSTD — баланс между скоростью и сжатием.

GZIP (Deflate) — эффективнее, но медленнее.

Proprietary — у крупных вендоров могут быть свои алгоритмы (например, Dell PowerStore, NetApp AFF).

Пример:

LZ4 — это алгоритм сжатия данных, разработанный с фокусом на максимальную скорость, а не на максимальное сжатие. Его главная цель — быстро сжимать и распаковывать, даже на слабом «железе»

Почему LZ4 популярен в СХД:

Минимальная нагрузка на CPU

Отлично работает на серверных системах, где важно не тормозить I/O.

Инлайн-компрессия в реальном времени

Можно включать без заметного падения производительности.

Идеален для ZFS, Ceph, Btrfs и других файловых систем/СХД

Например, в ZFS по умолчанию используется lz4

Допустим, у тебя есть логи размером 10 ГБ, состоящие в основном из повторяющихся строк и меток времени.

Без сжатия — 10 ГБ занимают 10 ГБ.

С LZ4 — они могут занять всего 3–5 ГБ на диске.

При этом производительность записи почти не изменится.

Подождите.... но ведь Компрессия это тоже самое ? нет?

Компрессия — это как сжать воздух в бутылке, чтобы занять меньше места.

Один файл → становится короче сам по себе.
Пример: «Привет, привет, привет» → «Привет (x3)»

Дедупликация — это как не хранить одну и ту же вещь дважды.

Два одинаковых файла → храним один, второй — просто ссылка на него.
Пример: если у тебя 10 одинаковых копий фильма — сохраняется только одна.

Они не мешают друг другу — в системах хранения обычно используют и то, и другое для экономии места.

Пример из жизни:

У тебя есть 3 файла:

  • backup1.tar (10 ГБ)
  • backup2.tar (тоже 10 ГБ, почти копия backup1)
  • backup3.tar (почти то же самое)

С компрессией:

Каждый файл сожмётся, например, до 4 ГБ.

Итог: 4 + 4 + 4 = 12 ГБ

С дедупликацией:

Система увидит, что 90% данных одинаковы, и сохранит уникальные блоки.

Итог: 5 ГБ вместо 30 ГБ

Можно использовать вместе?

Да! В системах хранения вроде ZFS, NetApp, Veeam, Pure Storage компрессия и дедупликация часто работают в паре:

Сначала сжимают (уменьшают размер каждого файла),

Потом удаляют дубликаты между файлами или блоками.

-2

Подождите ... так это же ЗИП ФАЙЛ!

Да! 
Очень просто:

Компрессия — это как ZIP-архив.

Она сжимает файл, чтобы он занимал меньше места, но при этом всё внутри остаётся.

В системах хранения (СХД) компрессия делает это автоматически — ты сохраняешь файл, а система сама "зипует" его внутри, чтобы сэкономить место. И тебе не нужно вручную архивировать

Компрессия используется повсюду — не только в системах хранения! Вот простыми словами, где и зачем она нужна:

В компьютерах и телефонах

ZIP, RAR, 7Z — когда ты архивируешь файлы, чтобы отправить или сохранить.

Фотографии — JPEG, HEIC — это сжатые форматы, чтобы занимали меньше места.

Видео и фильмы — MP4, H.264, AV1 — компрессия позволяет смотреть видео без 100 ГБ на один фильм.

Музыка — MP3, AAC — это тоже компрессия, чтобы трек весил не 50 МБ, а 5 МБ.

В интернете

Сайты — HTML, CSS и JavaScript часто передаются с компрессией (gzip, Brotli), чтобы страницы грузились быстрее.

Видео на YouTube, TikTok — сжимаются, чтобы не "зажигать" трафик.

VPN и мессенджеры — могут сжимать данные для быстрой передачи.

В облаках и серверах

Бэкапы и архивы — системы сжимают файлы, чтобы экономить место.

Базы данных — такие как ClickHouse, Cassandra, MongoDB используют сжатие, чтобы влезало больше данных.

Облачные хранилища (Google Drive, Dropbox) — могут применять компрессию внутри.

В играх и мобильных приложениях

Текстуры, аудио, модели — всё сжимается для уменьшения размера игры.

Быстрая загрузка и экономия места на телефоне.

В передаче данных и сетях

Мобильные сети — сжатие помогает быстрее передавать сайты и видео.

Передача телеметрии, спутниковых данных — компрессия экономит полосу пропускания.

В науке и аналитике

Big Data — сжимают логи, датасеты и телеметрию для анализа.

Медицинские снимки (DICOM) — тоже часто сжаты без потерь.

Понял? Ну молодец!