如何配置安装在工作站上的 Ubuntu 快速系统以进行科学计算

如何配置安装在工作站上的 Ubuntu 快速系统以进行科学计算

我负责一个功能强大的工作站,以支持我们研究中心的科学计算需求。我们决定在这台机器上运行 Ubuntu 16.04 LTS。但是,我已经多年没有做过类似的任务了。我上次管理集群/工作站时使用的是 CentOS。我写信主要是想就两件事征求您的建议:

  1. 我应该如何配置有限的存储空间才能获得最佳性能?这台机器有性能不匹配的 512GB SSD + 2TB HDD。将来可能会扩展到拥有更多 PCIe-SSD 和 HDD,我们将有 10-20 个用户使用这台电脑。我应该使用逻辑卷管理器对于所有具有文件系统的分区,btrfs是否可以快速快照?我认为 LVM 和btrfs适用于未来磁盘扩展,性能良好,但可能会增加系统的复杂性,因为一个/home或根目录可以跨越普通 2.5 英寸 SSD 和更快的 PCIe m.2 SSD。

  2. 鉴于该机器目前有 28 个核心,其中 1 个 GPU 用于 CUDA(Matlab 等)和通用编程,那么什么软件适合用于作业提交管理?我们将来可能会安装更多 GPU。与其他计算机联网形成一个小型集群可能会很好,但目前我们还没有制定计划。

以下是我对分区进行分组的初步计划,我听说泥浆适合作业队列管理。PBS/TORQUE 也适合作业队列管理。不确定哪一个更适合我的情况。

512GB 固态硬盘(/dev/sda

/boot, ext2, 250MB

/swap,LVM-SWAP,10GB(已安装32GB内存,后期可使用PCIe-NVM SSD卡升级)

/(根)、LVM-btrfs、100GB(将用于安装大量共享软件)

/home,LVM-btrfs,~400GB

2TB 硬盘 (/dev/sdb)

/backup,LVM-btrfs,1TB(我们还有一个远程备份磁盘服务器)

/data, LVM-btrfs, 1TB

在这个阶段,我不确定备份策略和文件结构。鉴于 SSD 的空间有限,我们缩小/home到仅在 SSD 上,以便为当前约 10 个用户提供足够的程序空间,并为未来的 PCIe NVM SSD 卡扩展留出一些空间。所以,如果您对工作站配置的其他方面有一些想法,请随时发布。

先感谢您!

答案1

假设您可能需要某种方式的虚拟化,那么请考虑 Proxmox,因为它是一款出色的 VM 管理、配置和编排系统。Proxmox 还支持用户管理、网络管理和集群管理,并且拥有强大的开发人员和用户社区。

BTRFS 或 ZFS 将为您提供快照/恢复功能。每个都有自己的优点/缺点。BTRFS 非常适合我的服务器……只是不要使用它的 Raid5 功能,因为它已经损坏。我使用 BTRFS Raid10。

如此庞大的用户群和严肃工作的备份不应该放在同一台物理机器上。

为用户和网络保护制定安全政策。

相关内容