我们面临的情况是,数据已备份到多个外部介质,我们正在进行数据整合。数据由二进制文件、音频、视频、压缩档案、虚拟机、数据库等组成。
在进行重复数据删除之前将所有文件复制到单一源是最佳做法吗,还是在多个媒体上运行该过程是正常做法?
运行文件级还是块级重复数据删除最好?我知道技术上的差异,但不清楚你为什么会选择其中一种。我们追求的是准确性,而不是性能
编辑
当我说复制时,我的意思是我们将每个源复制到单个驱动器或 NAS。每个源将由一个目录表示。所有数据目前都存储在外部硬盘驱动器中。目标是删除重复数据并拥有单一真实来源。
答案1
像 rsync 这样的工具可以管理比较操作和来回移动位,但是您必须提供自己的逻辑来确定哪个版本的数据是规范的。
运行文件级还是块级重复数据删除最好?
至少你的问题的这一部分很简单:你永远不需要关心块级别上发生的事情。