我正在探索更有效地利用我们的主要存储的选项。
我们当前的 NAS 是 HP ProLiant DL380 G5,带有 HP Storageworks MSA20,还有另一个磁盘架,我不确定它是什么。
我们的文件绝大多数都是PDF文件(数亿个),相似度很高。
在一个George Crump 的专家意见(引用自数据域的重复数据删除中心),在粒度部分,他说:“为了有效进行重复数据删除,需要在子文件级别使用可变长度的段进行。”
这很难找到,但正是我需要的。大多数重复数据删除选项似乎都是基于块的,这对于最大限度地减少备份占用的空间非常有效,因为只存储更改的块,但基于块的技术无法在我们的 PDF 块内找到位于不同偏移处的相同段。
我碰到陶笛网络前几天,它看起来正是我们所需要的。
Storage Switzerland 实验室报告概述 - 主存储的重复数据删除比较 Ocarina Networks 和NetApp被称为“主存储重复数据删除领域的两位领导者”。
理想情况下,我们希望继续使用当前的 NAS,但要更加高效。
我想到的另一种解决方案是Storwize,它们似乎对单个文件执行内联压缩,并与重复数据删除解决方案集成。
还有哪些其他解决方案和信息资源?
答案1
我发现大多数黑盒重复数据删除解决方案并不像直接内置于存储中的解决方案那样有效或高效。
例如,黑盒重复数据删除设备需要您的所有数据在到达您所使用的通用存储之前以两个方向通过它,然后对所有数据进行重复数据删除处理,而 NetApp、Data Domain 和许多其他存储阵列允许您基于每个卷控制重复数据删除,并且所有处理都在控制器本身上完成。
如果您打算使用现有的非智能存储但在其前面采用解决方案,我会推荐数据域,但老实说,我鼓励您升级到可以内部进行重复数据删除的其他存储系统。
我会调查NetApp V 系列存储控制器。这些允许您将智能磁盘控制器连接到您已有的磁盘架硬件。
答案2
您正在寻找的技术称为重复数据删除,并且有大量供应商提供重复数据删除技术。
如果您正在使用 SAN,请致电您的 SAN 供应商,他们会竭尽全力向您推销他们的重复数据删除选项。
以下是关于如何开始使用重复数据删除的良好资源:
答案3
我很了解 MSA 系列,我认为使用现有产品进行重复数据删除会很困难,因为首先,重复数据删除是一项相当缓慢且 IO 密集型的工作,最好由实际的 SAN/NAS 控制器来完成。在备份场景中情况略有不同,因为备份媒体服务器可以随时进行重复数据删除,但对于实时数据,保持数据完整性和整体性能很重要,我不确定是否有任何“售后附加组件”可以真正满足您的需求。