Киберпротект. Дедупликация данных: простыми словами о технологии и сценариях использования

6 апреля 2026

Введение

Сейчас информации в компаниях становится все больше, и вопрос, где ее хранить, встает очень остро. Старые способы сжатия файлов уже не так хорошо помогают экономить место, особенно если данных много и они похожи друг на друга. Поэтому на первый план выходит дедупликация — технология, которая позволяет занимать меньше места на дисках и быстрее создавать резервные копии. В этой статье Киберпротект простым языком разберет принципы работы дедупликации, её отличия от сжатия, а также рассмотрит практические сценарии использования технологии.

Почему без дедупликации не обойтись: проблема клонов

Чтобы понять ценность технологии дедупликации, представим офис на 400 сотрудников. Один специалист создал презентацию размером в 10 Мб и рассылает её 10 коллегам. При классическом подходе в резервную копию попадет 100 Мб, не считая копий на почтовом сервере. Полезной информации не стало больше, но появились её многочисленные клоны.

Масштаб проблемы:

На ПК каждого сотрудника от 50 до нескольких сотен Гб данных (операционная система, прикладное ПО).
Для полной резервной копии данных офиса без оптимизации потребуется от 20 до 150 Тб.
С учетом всех копий объем может достигать 1 Пб.

Статистика показывает низкий процент уникальности данных:

Офисные ПК: ~50% уникальных данных.
Виртуальные машины: ~30%.
Файловые серверы: ~75%.

Вторая, не менее важная проблема — скорость передачи данных. При канале 100 Мбит/сек загрузка 1 Тб данных займет около суток. Для решения проблем избыточности и скорости используются два подхода: дедупликация и сжатие.

Что такое дедупликация данных простыми словами?

Дедупликация (Data Deduplication) — это метод оптимизации хранения, исключающий повторяющиеся блоки информации. Вместо сохранения сотен копий одного файла или блока, система хранит только одну физическую копию. Остальные «дубли» заменяются короткими ссылками-указателями на оригинал.

Как это работает: 4 этапа процесса

1) Сегментация. Поток данных разбивается на блоки. Используется фиксированный размер или более гибкий переменный (устойчив к изменениям внутри файла).
2) Хеширование. Для каждого блока вычисляется уникальный цифровой отпечаток (хэш-сумма), например, SHA-1 или MD5.
3) Индексирование. Система сверяет полученный хэш с индексом уже сохраненных блоков.
4) Оптимизация. Уникальный блок записывается в хранилище. Если блок уже существует, система сохраняет только ссылку на оригиналы.

Пример: вы сделали резервную копию базы данных. Завтра изменилось лишь 5% информации. Без дедупликации запишется 100% объема. С дедупликацией система сохранит только новые 5%, так как 95% блоков уже ей известны.

Основные виды дедупликации

Технологии классифицируются по уровню обработки, времени и месту выполнения.

1. По уровню обработки данных

Файловая. Ищет полностью дублирующиеся файлы. Менее эффективна. Пример: файл report.xlsx в трех папках сохранится один раз + две ссылки.
Блочная. Работает на уровне частей файлов. Гораздо эффективнее. Пример: при изменении одной страницы в презентации сохранится только измененный блок.

2. По времени обработки

На лету. Обработка идет перед записью на диск. Экономия места мгновенная, но требуется высокая производительность CPU.
Постобработка. Данные сначала пишутся на диск, дедупликация запускается позже (в часы простоя). Требует временного дополнительного места.

3. По месту выполнения

На источнике. Очистка от дублей происходит на сервере или ПК до отправки в сеть. Это экономит сетевой трафик.
На целевом устройстве. «Сырые» данные передаются по сети, обработка происходит на сервере хранения.

Дедупликация и сжатие: в чем разница?

Важно понимать: это не конкуренты, а дополняющие друг друга технологии.

Рекомендация

Для максимальной экономии используйте оба метода последовательно: сначала дедупликация, потом сжатие. Если сжать данные первыми, одинаковые блоки превратятся в разные битовые потоки, и дедупликация станет невозможной.

Практические сценарии для бизнеса

Когда критична дедупликация:

Ежедневные инкрементальные резервные копии виртуальных машин.
Файловые серверы с множеством копий документов.
Почтовые архивы с повторяющимися вложениями.

Когда эффективно сжатие:

Логи, текстовые конфиги, базы данных с повторяющимися паттернами.
Передача данных по каналам с низкой пропускной способностью.
Холодное хранение редко используемых архивов.

Поддержка дедупликации в Кибер Бэкапе

В системе резервного копирования Кибер Бэкап реализовано два подхода к устранению дубликатов:

1) Глобальная дедупликация

Выполняется на узле хранения (формат архива TIB 11).
Подходит для обработки больших объемов однотипных данных, получаемых с различных источников.
Требует мощного сервера (CPU, RAM) и уступает новому формату архива в гибкости.

2) Дедупликация на уровне архива (Рекомендуется)

Выполняется на источнике агентом (формат архива TIBX 12, по умолчанию).
Не требует отдельного производительного сервера.
Оптимальна для большинства задач.

Более подробно об Узле хранения рассказывали на вебинаре Киберпротект «Быстрый старт. Использование узла хранения», запись мероприятия доступна здесь.

Советы по эффективному использованию

Для дедупликации парка машин сначала сделайте резервную копию эталонной машины.
Для снижения пиковой нагрузки распределите резервное копирование разных машин по времени.
Защищайте паролем само хранилище, а не отдельные резервные копии.

Заключение

Дедупликация данных — это стратегический инструмент для построения быстрой и экономичной инфраструктуры резервного копирования. Она позволяет радикально снизить затраты на хранение и ускорить передачу данных, особенно в средах с виртуализацией. Чтобы получить максимальный эффект, важно грамотно выбрать вид дедупликации и правильно сочетать её со сжатием.

Автор: Алексей Федоров, менеджер по продуктовому маркетингу Киберпротект

Источник: перейти на сайт Киберпротект

Товары

Вернуться к списку

Мультисофт

+375 (44 29 25) 7340505
+375 (17) 3110031

Киберпротект. Дедупликация данных: простыми словами о технологии и сценариях использования

Введение

Почему без дедупликации не обойтись: проблема клонов

Что такое дедупликация данных простыми словами?

Основные виды дедупликации

Дедупликация и сжатие: в чем разница?

Практические сценарии для бизнеса

Поддержка дедупликации в Кибер Бэкапе

Заключение

Товары

+375 (44 29 25) 7340505
+375 (17) 3110031

+375 (44 29 25) 7340505 +375 (17) 3110031

Киберпротект. Дедупликация данных: простыми словами о технологии и сценариях использования

Введение

Почему без дедупликации не обойтись: проблема клонов

Что такое дедупликация данных простыми словами?

Основные виды дедупликации

Дедупликация и сжатие: в чем разница?

Практические сценарии для бизнеса

Поддержка дедупликации в Кибер Бэкапе

Заключение

Товары

+375 (44 29 25) 7340505 +375 (17) 3110031

+375 (44 29 25) 7340505
+375 (17) 3110031

+375 (44 29 25) 7340505
+375 (17) 3110031