Рекомендации по дедупликации
Наиболее важные факторы, влияющие на скорость дедупликации:
- скорость доступа к базе данных дедупликации;
- объем оперативной памяти узла хранения;
- количество дедуплицирующих хранилищ, созданное в узле хранения.
Для увеличения производительности дедупликации следуйте рекомендациям ниже.
Размещайте базу данных дедупликации и дедуплицирующее хранилище на разных физических носителях.
В базе данных дедупликации содержатся хэш-значения всех элементов, которые хранятся в хранилище, кроме тех, которые не могут дедуплицироваться (например, файлы, защищенные паролем).
Для увеличения скорости доступа к базе данных дедупликации база данных и хранилище должны быть размещены на разных физических носителях.
Рекомендуется выделить специальные устройства для хранилища и базы данных. Если это невозможно, по крайней мере не размещайте хранилище или базу данных на диске с операционной системой. При работе операционной системы выполняется большое количество операций чтения/записи на жесткий диск, что существенно замедляет процесс дедупликации.
Выбор диска для базы данных дедупликации
- База данных должна находиться на стационарном диске. Не пытайтесь разместить базу данных дедупликации на внешних съемных носителях.
- Чтобы минимизировать время доступа к базе данных, сохраните ее на диске, подключенном напрямую, а не на подключенном сетевом томе. Задержка в сети может существенно снизить производительность дедупликации.
- Примерный объем дискового пространства, необходимого для базы данных дедупликации, вычисляется по следующей формуле:
S = U * 90 / 65536 + 10
В этой формуле
S — размер диска в ГБ;
U — планируемый объем уникальных данных в хранилище дедуплицированных данных (ГБ).
Например, если планируемый объем уникальных данных в хранилище дедуплицированных данных U = 5 ТБ, для базы данных дедупликации потребуется объем свободного пространства не менее
S = 5000 * 90 / 65536 +10 = 17 ГБ
Выбор диска для дедуплицирующего хранилища
Для предотвращения потери данных рекомендуется использовать RAID 10, 5 или 6. RAID 0 не рекомендуется, поскольку не является отказоустойчивым. RAID 1 не рекомендуется из-за относительно низкой скорости. Можно использовать как локальные диски, так и SAN.
От 40 до 160 МБ ОЗУ на 1 ТБ уникальных данных
По достижении ограничения дедупликация выполняться не будет, а резервное копирование и восстановление продолжат выполняться. Если вы добавите ОЗУ в узел хранения после следующего резервного копирования, дедупликация восстановится. В общем, чем больше ОЗУ, тем больше размер томов с уникальными данными, которые можно сохранить.
Одно дедуплицирующее хранилище на каждый узел хранения
Настоятельно рекомендуется создавать только одно дедуплицирующее хранилище на узле хранения. В противном случае весь доступный объем ОЗУ будет распределен пропорционально количеству хранилищ.
Отсутствие приложений, конкурирующих за ресурсы
На машине с узлом хранения не должны быть запущены приложения, требующие большого количества системных ресурсов, например, системы управления базами данных (СУБД) или системы планирования ресурсов предприятия (ERP).
Многоядерный процессор с тактовой частотой не менее 2,5 ГГц
Рекомендуется использовать процессор с количеством ядер не менее 4 и тактовой частотой не менее 2,5 ГГц.
Достаточное свободное пространство в хранилище
Для дедупликации в месте сохранения требуется столько же свободного пространства, сколько занимают данные резервной копии сразу после сохранения в хранилище. Без выполнения сжатия или дедупликации в источнике это значение равно размеру исходных данных, резервная копия которых создана во время данной операции резервного копирования.
Высокоскоростная локальная сеть
Рекомендуется скорость локальной сети 1 Гбит. Это позволит программе выполнить 5–6 операций резервного копирования параллельно с дедупликацией без заметного снижения скорости.
Выполните резервное копирование типичной машины перед резервным копированием нескольких машин со сходным содержимым.
При резервном копировании нескольких машин со сходным содержимым рекомендуется сначала выполнить резервное копирование одной машины и подождать завершения индексирования данных резервной копии. После этого резервное копирование остальных машин будет выполняться быстрее за счет эффективной дедупликации. Поскольку резервная копия первой машины была проиндексирована, большая часть данных уже находится в хранилище дедуплицированных данных.
Выполняйте резервное копирование разных машин в разное время.
При резервном копировании большого количества машин распределите операции резервного копирования по времени. Для этого необходимо создать несколько планов защиты с различными расписаниями.