Найти в Дзене
IT for Dummies

Не храни одно и тоже!

Дедупликация — это способ не хранить одно и то же несколько раз, чтобы экономить место. Не понял?
Еще раз:
Представь, что у тебя есть ящик с документами. В каждом документе написано одно и то же. Вместо того чтобы складывать каждый полный экземпляр, ты кладёшь один оригинал, а к остальным — бумажки с надписью: "Смотри первый лист". Было: 3 одинаковые копии — занимают 3 места Стало: 1 ориг. файл и 2 ссылки на один оригинал — занимает 1 место Ну давай руку, пойдем покажу. Дедупликация (deduplication) — это технология устранения повторяющихся данных с целью экономии места на системах хранения. Если в хранилище встречаются одинаковые фрагменты данных, система хранит только одну копию, а остальные — заменяет на ссылки. Это похоже на то, как если бы в книге повторялась одна и та же глава: вместо того чтобы печатать её заново, ты просто ставишь ссылку: "См. главу 3." В резервном копировании — особенно полезно, когда ежедневно сохраняются почти одинаковые образы систем. В облачных хранилищах
Оглавление

Что такое дедупликация?

Дедупликация — это способ не хранить одно и то же несколько раз, чтобы экономить место.

Тебе стало понятно? - ставь лайк и закрывай статью.

Не понял?

Еще раз:
Представь, что у тебя есть ящик с документами. В каждом документе написано одно и то же. Вместо того чтобы складывать каждый полный экземпляр, ты кладёшь 
один оригинал, а к остальным — бумажки с надписью: "Смотри первый лист".

Ещё проще:

Было:

3 одинаковые копии — занимают 3 места

Стало:

1 ориг. файл и 2 ссылки на один оригинал — занимает 1 место

Опять не понял?

Ну давай руку, пойдем покажу.

Дедупликация (deduplication) — это технология устранения повторяющихся данных с целью экономии места на системах хранения.

Как это работает:

Если в хранилище встречаются одинаковые фрагменты данных, система хранит только одну копию, а остальные — заменяет на ссылки. Это похоже на то, как если бы в книге повторялась одна и та же глава: вместо того чтобы печатать её заново, ты просто ставишь ссылку: "См. главу 3."

Где применяется:

В резервном копировании — особенно полезно, когда ежедневно сохраняются почти одинаковые образы систем.

В облачных хранилищах — для оптимизации объёма данных.

В системах хранения данных (СХД) — например, в NetApp, Dell EMC, Veeam, ZFS и др.

Уровни дедупликации:

Файловый уровень — если два файла идентичны, хранится только один.

Блочный уровень — сравниваются фрагменты (блоки) файлов.

Побайтовый / символьный уровень — наимельчайший уровень, используется редко из-за нагрузки на процессор.

Преимущества:

Снижене объема хранимых данных (иногда до 90%)

Экономия на дисковом пространстве и бэкапах

Быстрая передача данных (меньше данных — быстрее сеть)

Что такое онлайн и инлайн дедупликация?

Это два разных подхода к тому, когда именно происходит дедупликация — до или после записи данных на диск.

Инлайн дедупликация (inline deduplication)

Происходит сразудо того как данные записаны на диск.

Как это работает:

  1. Ты сохраняешь файл.
  2. Система сначала проверяет, есть ли уже такой блок данных.
  3. Если он уже есть — не записывает его повторно.
  4. Сохраняется только ссылка.

Плюсы:

  • Сразу экономит место.
  • Никаких повторных операций.

Минусы:

  • Требует больше ресурсов во время записи (CPU, RAM).
  • Может немного замедлять запись.

Офлайн дедупликация (или постпроцессинг / post-process)

Не ради "Холивара" но маркетологи часто так же называют ее "онлайн", что в технологическом сообществе часто - порицается. Почему? Потому что:

Происходит после записи данных — в фоне, через некоторое время.

Как это работает:

  1. Файл записывается целиком, как есть.
  2. Позже фоновая задача анализирует, что можно объединить.
  3. Удаляет дубликаты и оставляет ссылки.

Плюсы:

  • Быстрая запись.
  • Меньшая нагрузка в момент сохранения.

Минусы:

  • Место сначала тратится, и только потом высвобождается.
  • Нужно запускать фоновый анализ (обычно по расписанию).

Пример из жизни:

Инлайн:

Ты сразу проверяешь: "А я уже это загружал?" — и если да, не грузишь снова.

Онлайн:

Ты всё сохраняешь без раздумий, а вечером садишься и начинаешь разбирать дубликаты.