创建大型元数据表来映射存储

创建大型元数据表来映射存储

我想弄清楚如何管理我的存储空间,它已经相当大了。这个想法是查看不必要的文件,然后存档/删除。

目前,我只是执行 `du -h max-depth 1 并将输出通过管道传输到文本文件中。

但是,我想要更多信息,以便弄清楚如何存档/删除我当前的存储。

---递归获取所有文件的文件类型和大小的最佳方法是什么?这将是检查无用的中间文件的快速方法

---我正在考虑将所有文件元数据(即数据用户、文件类型、文件大小、时间戳)输出到一个大的 tsv 文件中,这样我就可以根据大小和文件类型在 Python/R 中对其进行子集化。这可能吗?我们如何获取这些信息?

---是否有方法可以查看存储与时间的关系?

---是否有任何其他诊断/精美的可视化可以帮助我弄清楚如何组织/存档/删除当前存储的数据?

答案1

对于评论来说这太长了,但对于答案来说还不够好。对于那个很抱歉。

---递归获取所有文件的文件类型和大小的最佳方法是什么?这将是检查无用的中间文件的快速方法

不确定“最好”的部分,但首先在 Google 上搜索“advanced disk use linux”会导致

---我正在考虑将所有文件元数据(即数据用户、文件类型、文件大小、时间戳)输出到一个大的 tsv 文件中,这样我就可以根据大小和文件类型在 Python/R 中对其进行子集化。这可能吗?我们如何获取这些信息?

对于Python,当然:只需使用os.walk()递归目录并打印出每个文件的所有相关信息。我可能会使用 SQLite 作为输出格式而不是 TSV。

---是否有方法可以查看存储与时间的关系?

您可以du -s定期运行并将结果提供给 RRD 数据库。然后你可以用它制作漂亮的图表。

---是否有任何其他诊断/精美的可视化可以帮助我弄清楚如何组织/存档/删除当前存储的数据?

应该有,但我怀疑它们对于您的特定情况有多大用处。

相关内容