什么是“重复数据删除”?

什么是“重复数据删除”?

我的意思是,我可以查一下字典中的定义,但为什么大家突然都提到虚拟磁带库了?这有什么“新”的,以至于最近在新闻中如此频繁地报道它?

答案1

重复数据删除是指查看数据集的内容,记录所有存在的重复位,并只存储一次数据,用指向唯一副本的指针替换所有原本的数据副本。它对备份特别有用,因为当您备份服务器等内容时,很多数据都是相同的。例如,想象一下,您正在备份 1,000 台 Windows 服务器 - 这些机器上的许多内容将完全相同。

重复数据删除如今如此流行,原因有三:

  1. 最近,每个人都热衷于构建利用异地服务器的灾难恢复解决方案。为此,您必须将大量生产数据复制到远程站点,而带宽是一个巨大的问题。减少需要复制的数据量将大有帮助。

  2. 由于存储成本更低以及多行业对记录保留的要求,公司保留的数据量正在激增。

  3. 这项技术最近才达到最佳状态。我们很久以前就有重复数据删除之类的技术(单实例存储等),这很有帮助,但直到去年左右,我们才看到真正可以显著减少存储量的重复数据删除技术成为主流。

答案2

我们在公司与 Netapp 合作时发现,重复数据删除只有在驱动器对齐的情况下才能在 VM 环境中很好地发挥作用。这对我们来说是个问题,因为我们有很多 Windows Server 2003 机器,但没有一个驱动器是对齐的。这意味着,如果驱动器对齐正确,您几乎无法恢复大约四分之一的空间。

不过,我们被告知,一旦驱动器正确对齐,我们应该能够通过重复数据删除恢复 40-60% 的空间。

相关内容