MongoDB 和 ZFS 性能不佳：磁盘总是忙于读取，而只执行写入

Question 1

这听起来可能有点疯狂的，但我支持另一个受益于 ZFS 卷管理属性但在本机 ZFS 文件系统上表现不佳的应用程序。

我的解决方案？！？

启用 XFS顶部的ZFS 卷。

为什么？！？

因为 XFS 性能良好，并且消除了我在使用原生 ZFS 时遇到的特定于应用程序的问题。ZFS zvols 允许我精简配置卷、添加压缩、启用快照并高效利用存储池。对我的应用程序来说更重要的是，zvol 的 ARC 缓存减少了磁盘上的 I/O 负载。

看看你是否能理解这个输出：

# zpool status
  pool: vol0
 state: ONLINE
  scan: scrub repaired 0 in 0h3m with 0 errors on Sun Mar  2 12:09:15 2014
config:

        NAME                                            STATE     READ WRITE CKSUM
        vol0                                            ONLINE       0     0     0
          mirror-0                                      ONLINE       0     0     0
            scsi-SATA_OWC_Mercury_AccOW140128AS1243223  ONLINE       0     0     0
            scsi-SATA_OWC_Mercury_AccOW140128AS1243264  ONLINE       0     0     0
          mirror-1                                      ONLINE       0     0     0
            scsi-SATA_OWC_Mercury_AccOW140128AS1243226  ONLINE       0     0     0
            scsi-SATA_OWC_Mercury_AccOW140128AS1243185  ONLINE       0     0     0

ZFS zvol，创建方式：（zfs create -o volblocksize=128K -s -V 800G vol0/pprovol请注意，已启用自动快照）

# zfs get all vol0/pprovol
NAME          PROPERTY               VALUE                  SOURCE
vol0/pprovol  type                   volume                 -
vol0/pprovol  creation               Wed Feb 12 14:40 2014  -
vol0/pprovol  used                   273G                   -
vol0/pprovol  available              155G                   -
vol0/pprovol  referenced             146G                   -
vol0/pprovol  compressratio          3.68x                  -
vol0/pprovol  reservation            none                   default
vol0/pprovol  volsize                900G                   local
vol0/pprovol  volblocksize           128K                   -
vol0/pprovol  checksum               on                     default
vol0/pprovol  compression            lz4                    inherited from vol0
vol0/pprovol  readonly               off                    default
vol0/pprovol  copies                 1                      default
vol0/pprovol  refreservation         none                   default
vol0/pprovol  primarycache           all                    default
vol0/pprovol  secondarycache         all                    default
vol0/pprovol  usedbysnapshots        127G                   -
vol0/pprovol  usedbydataset          146G                   -
vol0/pprovol  usedbychildren         0                      -
vol0/pprovol  usedbyrefreservation   0                      -
vol0/pprovol  logbias                latency                default
vol0/pprovol  dedup                  off                    default
vol0/pprovol  mlslabel               none                   default
vol0/pprovol  sync                   standard               default
vol0/pprovol  refcompressratio       4.20x                  -
vol0/pprovol  written                219M                   -
vol0/pprovol  snapdev                hidden                 default
vol0/pprovol  com.sun:auto-snapshot  true                   local

ZFS zvol 块设备的属性。900GB 卷（磁盘上的实际大小为 143GB）：

# fdisk -l /dev/zd0

Disk /dev/zd0: 966.4 GB, 966367641600 bytes
3 heads, 18 sectors/track, 34952533 cylinders
Units = cylinders of 54 * 512 = 27648 bytes
Sector size (logical/physical): 512 bytes / 131072 bytes
I/O size (minimum/optimal): 131072 bytes / 131072 bytes
Disk identifier: 0x48811e83

    Device Boot      Start         End      Blocks   Id  System
/dev/zd0p1              38    34952534   943717376   83  Linux

ZFS 块设备上的 XFS 信息：

# xfs_info /dev/zd0p1
meta-data=/dev/zd0p1             isize=256    agcount=32, agsize=7372768 blks
         =                       sectsz=4096  attr=2, projid32bit=0
data     =                       bsize=4096   blocks=235928576, imaxpct=25
         =                       sunit=32     swidth=32 blks
naming   =version 2              bsize=4096   ascii-ci=0
log      =internal               bsize=4096   blocks=65536, version=2
         =                       sectsz=4096  sunit=1 blks, lazy-count=1
realtime =none                   extsz=4096   blocks=0, rtextents=0

XFS 挂载选项：

# mount
/dev/zd0p1 on /ppro type xfs (rw,noatime,logbufs=8,logbsize=256k,nobarrier)

注意：在某些情况下，我也会在 HP Smart Array 硬件 RAID 上执行此操作。

池创建如下：

zpool create -o ashift=12 -f vol1 wwn-0x600508b1001ce908732af63b45a75a6b

结果如下：

# zpool status  -v
  pool: vol1
 state: ONLINE
  scan: scrub repaired 0 in 0h14m with 0 errors on Wed Feb 26 05:53:51 2014
config:

        NAME                                      STATE     READ WRITE CKSUM
        vol1                                      ONLINE       0     0     0
          wwn-0x600508b1001ce908732af63b45a75a6b  ONLINE       0     0     0

Answer

这听起来可能有点疯狂的，但我支持另一个受益于 ZFS 卷管理属性但在本机 ZFS 文件系统上表现不佳的应用程序。

我的解决方案？！？

启用 XFS顶部的ZFS 卷。

为什么？！？

因为 XFS 性能良好，并且消除了我在使用原生 ZFS 时遇到的特定于应用程序的问题。ZFS zvols 允许我精简配置卷、添加压缩、启用快照并高效利用存储池。对我的应用程序来说更重要的是，zvol 的 ARC 缓存减少了磁盘上的 I/O 负载。

看看你是否能理解这个输出：

# zpool status
  pool: vol0
 state: ONLINE
  scan: scrub repaired 0 in 0h3m with 0 errors on Sun Mar  2 12:09:15 2014
config:

        NAME                                            STATE     READ WRITE CKSUM
        vol0                                            ONLINE       0     0     0
          mirror-0                                      ONLINE       0     0     0
            scsi-SATA_OWC_Mercury_AccOW140128AS1243223  ONLINE       0     0     0
            scsi-SATA_OWC_Mercury_AccOW140128AS1243264  ONLINE       0     0     0
          mirror-1                                      ONLINE       0     0     0
            scsi-SATA_OWC_Mercury_AccOW140128AS1243226  ONLINE       0     0     0
            scsi-SATA_OWC_Mercury_AccOW140128AS1243185  ONLINE       0     0     0

ZFS zvol，创建方式：（zfs create -o volblocksize=128K -s -V 800G vol0/pprovol请注意，已启用自动快照）

# zfs get all vol0/pprovol
NAME          PROPERTY               VALUE                  SOURCE
vol0/pprovol  type                   volume                 -
vol0/pprovol  creation               Wed Feb 12 14:40 2014  -
vol0/pprovol  used                   273G                   -
vol0/pprovol  available              155G                   -
vol0/pprovol  referenced             146G                   -
vol0/pprovol  compressratio          3.68x                  -
vol0/pprovol  reservation            none                   default
vol0/pprovol  volsize                900G                   local
vol0/pprovol  volblocksize           128K                   -
vol0/pprovol  checksum               on                     default
vol0/pprovol  compression            lz4                    inherited from vol0
vol0/pprovol  readonly               off                    default
vol0/pprovol  copies                 1                      default
vol0/pprovol  refreservation         none                   default
vol0/pprovol  primarycache           all                    default
vol0/pprovol  secondarycache         all                    default
vol0/pprovol  usedbysnapshots        127G                   -
vol0/pprovol  usedbydataset          146G                   -
vol0/pprovol  usedbychildren         0                      -
vol0/pprovol  usedbyrefreservation   0                      -
vol0/pprovol  logbias                latency                default
vol0/pprovol  dedup                  off                    default
vol0/pprovol  mlslabel               none                   default
vol0/pprovol  sync                   standard               default
vol0/pprovol  refcompressratio       4.20x                  -
vol0/pprovol  written                219M                   -
vol0/pprovol  snapdev                hidden                 default
vol0/pprovol  com.sun:auto-snapshot  true                   local

ZFS zvol 块设备的属性。900GB 卷（磁盘上的实际大小为 143GB）：

# fdisk -l /dev/zd0

Disk /dev/zd0: 966.4 GB, 966367641600 bytes
3 heads, 18 sectors/track, 34952533 cylinders
Units = cylinders of 54 * 512 = 27648 bytes
Sector size (logical/physical): 512 bytes / 131072 bytes
I/O size (minimum/optimal): 131072 bytes / 131072 bytes
Disk identifier: 0x48811e83

    Device Boot      Start         End      Blocks   Id  System
/dev/zd0p1              38    34952534   943717376   83  Linux

ZFS 块设备上的 XFS 信息：

# xfs_info /dev/zd0p1
meta-data=/dev/zd0p1             isize=256    agcount=32, agsize=7372768 blks
         =                       sectsz=4096  attr=2, projid32bit=0
data     =                       bsize=4096   blocks=235928576, imaxpct=25
         =                       sunit=32     swidth=32 blks
naming   =version 2              bsize=4096   ascii-ci=0
log      =internal               bsize=4096   blocks=65536, version=2
         =                       sectsz=4096  sunit=1 blks, lazy-count=1
realtime =none                   extsz=4096   blocks=0, rtextents=0

XFS 挂载选项：

# mount
/dev/zd0p1 on /ppro type xfs (rw,noatime,logbufs=8,logbsize=256k,nobarrier)

注意：在某些情况下，我也会在 HP Smart Array 硬件 RAID 上执行此操作。

池创建如下：

zpool create -o ashift=12 -f vol1 wwn-0x600508b1001ce908732af63b45a75a6b

结果如下：

# zpool status  -v
  pool: vol1
 state: ONLINE
  scan: scrub repaired 0 in 0h14m with 0 errors on Wed Feb 26 05:53:51 2014
config:

        NAME                                      STATE     READ WRITE CKSUM
        vol1                                      ONLINE       0     0     0
          wwn-0x600508b1001ce908732af63b45a75a6b  ONLINE       0     0     0

Question 2

首先，值得一提的是，Linux 上的 MongoDB 不支持 ZFS 文件系统 - 推荐的文件系统是 ext4 或 XFS。因为 Linux 上甚至没有检查 ZFS（请参阅服务器-13223例如）它不会使用稀疏文件，而是尝试预分配（用零填充），这将意味着在奶牛文件系统。在修复此问题之前，添加新数据文件将对 ZFS 造成巨大的性能影响（您将尝试频繁执行写入操作）。虽然您没有这样做，但性能应该会有所改善，但如果您添加数据的速度足够快，您可能永远无法在分配命中之间恢复。

此外，ZFS 不支持直接 IO，因此您将多次将数据复制到内存中（mmap、ARC 等）——我怀疑这是您读取的来源，但我必须进行测试才能确定。上次我看到在 Linux 上使用 MongoDB/ZFS 进行测试时，性能很差，即使在 SSD 上使用 ARC 也是如此——ext4 和 XFS 的速度要快得多。ZFS 将来可能适用于 Linux 上的 MongoDB 生产使用，但现在还没有准备好。

Answer

首先，值得一提的是，Linux 上的 MongoDB 不支持 ZFS 文件系统 - 推荐的文件系统是 ext4 或 XFS。因为 Linux 上甚至没有检查 ZFS（请参阅服务器-13223例如）它不会使用稀疏文件，而是尝试预分配（用零填充），这将意味着在奶牛文件系统。在修复此问题之前，添加新数据文件将对 ZFS 造成巨大的性能影响（您将尝试频繁执行写入操作）。虽然您没有这样做，但性能应该会有所改善，但如果您添加数据的速度足够快，您可能永远无法在分配命中之间恢复。

此外，ZFS 不支持直接 IO，因此您将多次将数据复制到内存中（mmap、ARC 等）——我怀疑这是您读取的来源，但我必须进行测试才能确定。上次我看到在 Linux 上使用 MongoDB/ZFS 进行测试时，性能很差，即使在 SSD 上使用 ARC 也是如此——ext4 和 XFS 的速度要快得多。ZFS 将来可能适用于 Linux 上的 MongoDB 生产使用，但现在还没有准备好。

Question 3

我们研究了在 ZFS 上运行 Mongo，发现这篇文章提出了关于性能的重大担忧。两年后，我们想看看使用 WiredTiger 而不是 mmap 的新版 Mongo 在最新版 Ubuntu Xenial 附带的现在正式支持的 ZFS 上的表现如何。

总而言之，很明显 ZFS 的性能不如 EXT4 或 XFS，但是性能差距并不大，尤其是当您考虑到 ZFS 提供的额外功能时。

我做了一个博客文章关于我们的发现和方法。希望您觉得有用！

Answer

我们研究了在 ZFS 上运行 Mongo，发现这篇文章提出了关于性能的重大担忧。两年后，我们想看看使用 WiredTiger 而不是 mmap 的新版 Mongo 在最新版 Ubuntu Xenial 附带的现在正式支持的 ZFS 上的表现如何。

总而言之，很明显 ZFS 的性能不如 EXT4 或 XFS，但是性能差距并不大，尤其是当您考虑到 ZFS 提供的额外功能时。

我做了一个博客文章关于我们的发现和方法。希望您觉得有用！

Question 4

您的 ZFS 设置是什么，特别是 primarycache、logbias 和 sync？

确保 primarycache=all，logbias=throughput。

sync=disabled 会显著加快写入速度，但如果发生崩溃，可能会丢失最多 5 秒的最近写入数据。鉴于您描述的症状，您可能还想禁用 ZFS 预取。

我根据前段时间关于跑步的演讲写了一篇文章ZFS 上的 MySQL你可能会觉得有帮助。

Answer

您的 ZFS 设置是什么，特别是 primarycache、logbias 和 sync？

确保 primarycache=all，logbias=throughput。

sync=disabled 会显著加快写入速度，但如果发生崩溃，可能会丢失最多 5 秒的最近写入数据。鉴于您描述的症状，您可能还想禁用 ZFS 预取。

我根据前段时间关于跑步的演讲写了一篇文章ZFS 上的 MySQL你可能会觉得有帮助。

MongoDB 和 ZFS 性能不佳：磁盘总是忙于读取，而只执行写入

答案1

答案2

答案3

答案4

相关内容