Введение
Сейчас информации в компаниях становится все больше, и вопрос, где ее хранить, встает очень остро. Старые способы сжатия файлов уже не так хорошо помогают экономить место, особенно если данных много и они похожи друг на друга. Поэтому на первый план выходит дедупликация — технология, которая позволяет занимать меньше места на дисках и быстрее создавать резервные копии. В этой статье Киберпротект простым языком разберет принципы работы дедупликации, её отличия от сжатия, а также рассмотрит практические сценарии использования технологии.
Почему без дедупликации не обойтись: проблема клонов
Чтобы понять ценность технологии дедупликации, представим офис на 400 сотрудников. Один специалист создал презентацию размером в 10 Мб и рассылает её 10 коллегам. При классическом подходе в резервную копию попадет 100 Мб, не считая копий на почтовом сервере. Полезной информации не стало больше, но появились её многочисленные клоны.
Масштаб проблемы:
- На ПК каждого сотрудника от 50 до нескольких сотен Гб данных (операционная система, прикладное ПО).
- Для полной резервной копии данных офиса без оптимизации потребуется от 20 до 150 Тб.
- С учетом всех копий объем может достигать 1 Пб.
Статистика показывает низкий процент уникальности данных:
- Офисные ПК: ~50% уникальных данных.
- Виртуальные машины: ~30%.
- Файловые серверы: ~75%.
Вторая, не менее важная проблема — скорость передачи данных. При канале 100 Мбит/сек загрузка 1 Тб данных займет около суток. Для решения проблем избыточности и скорости используются два подхода: дедупликация и сжатие.
Что такое дедупликация данных простыми словами?
Дедупликация (Data Deduplication) — это метод оптимизации хранения, исключающий повторяющиеся блоки информации. Вместо сохранения сотен копий одного файла или блока, система хранит только одну физическую копию. Остальные «дубли» заменяются короткими ссылками-указателями на оригинал.
Как это работает: 4 этапа процесса
1) Сегментация. Поток данных разбивается на блоки. Используется фиксированный размер или более гибкий переменный (устойчив к изменениям внутри файла).
2) Хеширование. Для каждого блока вычисляется уникальный цифровой отпечаток (хэш-сумма), например, SHA-1 или MD5.
3) Индексирование. Система сверяет полученный хэш с индексом уже сохраненных блоков.
4) Оптимизация. Уникальный блок записывается в хранилище. Если блок уже существует, система сохраняет только ссылку на оригиналы.

Пример: вы сделали резервную копию базы данных. Завтра изменилось лишь 5% информации. Без дедупликации запишется 100% объема. С дедупликацией система сохранит только новые 5%, так как 95% блоков уже ей известны.
Основные виды дедупликации
Технологии классифицируются по уровню обработки, времени и месту выполнения.
1. По уровню обработки данных
- Файловая. Ищет полностью дублирующиеся файлы. Менее эффективна. Пример: файл report.xlsx в трех папках сохранится один раз + две ссылки.
- Блочная. Работает на уровне частей файлов. Гораздо эффективнее. Пример: при изменении одной страницы в презентации сохранится только измененный блок.
2. По времени обработки
- На лету. Обработка идет перед записью на диск. Экономия места мгновенная, но требуется высокая производительность CPU.
- Постобработка. Данные сначала пишутся на диск, дедупликация запускается позже (в часы простоя). Требует временного дополнительного места.
3. По месту выполнения
- На источнике. Очистка от дублей происходит на сервере или ПК до отправки в сеть. Это экономит сетевой трафик.
- На целевом устройстве. «Сырые» данные передаются по сети, обработка происходит на сервере хранения.
Дедупликация и сжатие: в чем разница?
Важно понимать: это не конкуренты, а дополняющие друг друга технологии.

Рекомендация
Для максимальной экономии используйте оба метода последовательно: сначала дедупликация, потом сжатие. Если сжать данные первыми, одинаковые блоки превратятся в разные битовые потоки, и дедупликация станет невозможной.
Практические сценарии для бизнеса
Когда критична дедупликация:
- Ежедневные инкрементальные резервные копии виртуальных машин.
- Файловые серверы с множеством копий документов.
- Почтовые архивы с повторяющимися вложениями.
Когда эффективно сжатие:
- Логи, текстовые конфиги, базы данных с повторяющимися паттернами.
- Передача данных по каналам с низкой пропускной способностью.
- Холодное хранение редко используемых архивов.
Поддержка дедупликации в Кибер Бэкапе
В системе резервного копирования Кибер Бэкап реализовано два подхода к устранению дубликатов:
1) Глобальная дедупликация
- Выполняется на узле хранения (формат архива TIB 11).
- Подходит для обработки больших объемов однотипных данных, получаемых с различных источников.
- Требует мощного сервера (CPU, RAM) и уступает новому формату архива в гибкости.
2) Дедупликация на уровне архива (Рекомендуется)
- Выполняется на источнике агентом (формат архива TIBX 12, по умолчанию).
- Не требует отдельного производительного сервера.
- Оптимальна для большинства задач.
Более подробно об Узле хранения рассказывали на вебинаре Киберпротект «Быстрый старт. Использование узла хранения», запись мероприятия доступна здесь.
Советы по эффективному использованию
- Для дедупликации парка машин сначала сделайте резервную копию эталонной машины.
- Для снижения пиковой нагрузки распределите резервное копирование разных машин по времени.
- Защищайте паролем само хранилище, а не отдельные резервные копии.
Заключение
Дедупликация данных — это стратегический инструмент для построения быстрой и экономичной инфраструктуры резервного копирования. Она позволяет радикально снизить затраты на хранение и ускорить передачу данных, особенно в средах с виртуализацией. Чтобы получить максимальный эффект, важно грамотно выбрать вид дедупликации и правильно сочетать её со сжатием.
Автор: Алексей Федоров, менеджер по продуктовому маркетингу Киберпротект
Источник: перейти на сайт Киберпротект


