我有以下问题:
- 我们有一个 S3 Minio 存储,其数据集由约 600k 个文件组成,相当于约 1.3Tb 的存储空间
- 在我们的 Kubernetes 集群上,我想多次使用数据集进行训练。但是,我想避免多次从 S3 服务器下载数据,以节省时间,也不会让请求过载
- 我的解决方案是使用 PVC,首先加载所有数据,然后将其安装到训练 pod 中。但是,问题在于:根据我的系统管理员的说法,为 PVC 预留的存储空间目前只有大约 200GB 的可用空间。
- 我们的集群目前正在重建(例如,以便我们将来可以将数据直接安装到 pod 中 :D ),但我需要一个解决方法。这带来了一个想法,即简单地使用一个单独的 pod 下载和存储所有数据,然后通过使用 nfs 服务器将其与训练 pod 共享。
- 此处描述了如何安装 NFS 卷Kubernetes文档,这似乎很简单。
- 然而,在文件系统、网络和 Linux 方面,我是一个真正的菜鸟。我尝试使用这个 Ubuntu 教程,但卡在缺少
systemctl
命令处。我也尝试过寻找“即用型”nfs-server docker 镜像,但并没有找到一个好的镜像,其中包含有关如何在 kubernetes 集群中设置它的文档。
所以基本上我正在寻找一个起点,在那里我可以简单地用python运行一个pod,运行一个脚本来本地下载我的所有数据,然后将其共享给其他pod。不确定如何开始。