Dell R720 服务器登录时进程运行缓慢

Question 1

基准测试过程涉及将某些内容写入磁盘并循环刷新

嗯，不是的，编译和运行它表明它根本没有刷新这些数据，所以有些不对劲。

我使用您指定的选项和使用的环境变量从 strace 获得以下内容。

open("/tmp/glog.home.localdomain.matthew.log.INFO.20140213-224037.24470", O_WRONLY|O_CREAT|O_EXCL, 0664) = 3
fcntl(3, F_SETFD, FD_CLOEXEC)           = 0
fcntl(3, F_GETFL)                       = 0x8001 (flags O_WRONLY|O_LARGEFILE)
fcntl(3, F_SETFL, O_WRONLY|O_APPEND|O_LARGEFILE) = 0
...

这里没有打开的标志表明它将把它刷新到磁盘......

写一下怎么样，

write(3, "I0213 22:40:37.370820 24470 glog"..., 46) = 46
fadvise64(3, 0, 4096, POSIX_FADV_DONTNEED) = 0
gettid()                                = 24470
write(3, "I0213 22:40:37.370925 24470 glog"..., 46) = 46
fadvise64(3, 0, 4096, POSIX_FADV_DONTNEED) = 0
gettid()                                = 24470
write(3, "I0213 22:40:37.370987 24470 glog"..., 46) = 46
fadvise64(3, 0, 4096, POSIX_FADV_DONTNEED) = 0
gettid()                                = 24470
...

那里也没有冲洗。

它可能在新系统上，在获得 POSIX_FADV_DONTNEED 后，它确实会将脏页写入磁盘，而在旧系统上则不会。这需要从测试中消除，并使测试更加公平，以避免与两个系统如何处理磁盘相关的任何可能问题。

请注意，使用fadvise这种方式是愚蠢的，每次都询问 pid 而不是保存它也是愚蠢的，但我离题了..

现在，老实说，我期望结果与你之前看到的类似；但这是一次实际上将要刷新到磁盘，与您的应用程序所做的不同。

#include <stdlib.h>
#include <stdio.h>
#include <sys/types.h>
#include <fcntl.h>
#include <string.h>
#include <sysexits.h>
#include <err.h>
#include <limits.h>

/* Deliberate choice here to force writes 4 times to the same sector */
#define BUFSZ 128

int main() {
  char buf[BUFSZ];
  char path[PATH_MAX];
  char name[NAME_MAX];
  char *home = NULL;
  int fd, i;
  memset(name, 0, NAME_MAX);
  memset(path, 0, PATH_MAX);
  memset(buf, 'A', BUFSZ);
  buf[BUFSZ-1] = '\n';

  /* Figure out some useful path to put this */
  home = getenv("HOME");
  if (!path)
    errx(EX_SOFTWARE, "No HOME environment variable set. I give in!");

  /* Dont use this without using open with O_EXCL! */
  strcpy(name, "writethis.bin.XXXXXX");
  mktemp(name);

  snprintf(path, PATH_MAX, "%s/%s", home, name);

  /* Open the file with flushy flags */
  fd = open(path, O_WRONLY|O_APPEND|O_EXCL|O_CREAT|O_SYNC,
                                          S_IRUSR|S_IWUSR);
  if (fd < 0)
    err(EX_OSERR, "Cannot open file");

  /* Just need an inode, dont want it showing up in VFS.. */
  if (unlink(path) < 0)
    err(EX_OSERR, "Unlink failed. Something horrible probably happened");

  /* Dont pollute cache */
  if (posix_fadvise(fd, 0, 0, POSIX_FADV_DONTNEED))
    err(EX_OSERR, "Fadvise failed?!");

  /* Write */    
  for (i=0; i < 1000; i++) {
    if (write(fd, buf, BUFSZ) < 0)
      err(EX_OSERR, "Cannot write to file");
  }

  close(fd);
}

请运行此程序time并给出结果。

Answer

基准测试过程涉及将某些内容写入磁盘并循环刷新

嗯，不是的，编译和运行它表明它根本没有刷新这些数据，所以有些不对劲。

我使用您指定的选项和使用的环境变量从 strace 获得以下内容。

open("/tmp/glog.home.localdomain.matthew.log.INFO.20140213-224037.24470", O_WRONLY|O_CREAT|O_EXCL, 0664) = 3
fcntl(3, F_SETFD, FD_CLOEXEC)           = 0
fcntl(3, F_GETFL)                       = 0x8001 (flags O_WRONLY|O_LARGEFILE)
fcntl(3, F_SETFL, O_WRONLY|O_APPEND|O_LARGEFILE) = 0
...

这里没有打开的标志表明它将把它刷新到磁盘......

写一下怎么样，

write(3, "I0213 22:40:37.370820 24470 glog"..., 46) = 46
fadvise64(3, 0, 4096, POSIX_FADV_DONTNEED) = 0
gettid()                                = 24470
write(3, "I0213 22:40:37.370925 24470 glog"..., 46) = 46
fadvise64(3, 0, 4096, POSIX_FADV_DONTNEED) = 0
gettid()                                = 24470
write(3, "I0213 22:40:37.370987 24470 glog"..., 46) = 46
fadvise64(3, 0, 4096, POSIX_FADV_DONTNEED) = 0
gettid()                                = 24470
...

那里也没有冲洗。

它可能在新系统上，在获得 POSIX_FADV_DONTNEED 后，它确实会将脏页写入磁盘，而在旧系统上则不会。这需要从测试中消除，并使测试更加公平，以避免与两个系统如何处理磁盘相关的任何可能问题。

请注意，使用fadvise这种方式是愚蠢的，每次都询问 pid 而不是保存它也是愚蠢的，但我离题了..

现在，老实说，我期望结果与你之前看到的类似；但这是一次实际上将要刷新到磁盘，与您的应用程序所做的不同。

#include <stdlib.h>
#include <stdio.h>
#include <sys/types.h>
#include <fcntl.h>
#include <string.h>
#include <sysexits.h>
#include <err.h>
#include <limits.h>

/* Deliberate choice here to force writes 4 times to the same sector */
#define BUFSZ 128

int main() {
  char buf[BUFSZ];
  char path[PATH_MAX];
  char name[NAME_MAX];
  char *home = NULL;
  int fd, i;
  memset(name, 0, NAME_MAX);
  memset(path, 0, PATH_MAX);
  memset(buf, 'A', BUFSZ);
  buf[BUFSZ-1] = '\n';

  /* Figure out some useful path to put this */
  home = getenv("HOME");
  if (!path)
    errx(EX_SOFTWARE, "No HOME environment variable set. I give in!");

  /* Dont use this without using open with O_EXCL! */
  strcpy(name, "writethis.bin.XXXXXX");
  mktemp(name);

  snprintf(path, PATH_MAX, "%s/%s", home, name);

  /* Open the file with flushy flags */
  fd = open(path, O_WRONLY|O_APPEND|O_EXCL|O_CREAT|O_SYNC,
                                          S_IRUSR|S_IWUSR);
  if (fd < 0)
    err(EX_OSERR, "Cannot open file");

  /* Just need an inode, dont want it showing up in VFS.. */
  if (unlink(path) < 0)
    err(EX_OSERR, "Unlink failed. Something horrible probably happened");

  /* Dont pollute cache */
  if (posix_fadvise(fd, 0, 0, POSIX_FADV_DONTNEED))
    err(EX_OSERR, "Fadvise failed?!");

  /* Write */    
  for (i=0; i < 1000; i++) {
    if (write(fd, buf, BUFSZ) < 0)
      err(EX_OSERR, "Cannot write to file");
  }

  close(fd);
}

请运行此程序time并给出结果。

Question 2

您能否提供有关基准测试的更多详细信息？您的基准测试是否反映了实际的应用程序使用场景？如果没有，那么它可能不是衡量磁盘性能的最佳方法。不过，还有其他事情需要考虑...

文件系统的选择和调整。
挂载参数（noatime、nobarriers 等）。
原始分区与 LVM。
分区对齐。
I/O 调度程序。
RAID 控制器缓存设置。
磁盘类型。

在文件系统和调优方面，EL6.2+ 具有tuned-adm 框架它可帮助您为硬件设置一些基本的 I/O 性能参数。这包括设置截止期限 I/O 调度程序和在合理的情况下禁用写入屏障。对于您的新系统，您需要运行yum install tuned tuned-utils并运行tuned-adm profile enterprise-storage。

对于您的分区方案，您的旧服务器具有固定分区大小，而新系统具有 LVM。LVM 是另一个抽象层，可能在本案中产生影响。

请确保您的 RAID 缓存配置正确。您通常希望缓存偏向于写入。

了解新服务器中有哪些磁盘...但这可能并不重要，因为旧服务器的磁盘是速度最慢的企业近线 SAS 磁盘。因此，新系统可能具有性能高于或等于旧服务器磁盘的驱动器。

Answer

您能否提供有关基准测试的更多详细信息？您的基准测试是否反映了实际的应用程序使用场景？如果没有，那么它可能不是衡量磁盘性能的最佳方法。不过，还有其他事情需要考虑...

文件系统的选择和调整。
挂载参数（noatime、nobarriers 等）。
原始分区与 LVM。
分区对齐。
I/O 调度程序。
RAID 控制器缓存设置。
磁盘类型。

在文件系统和调优方面，EL6.2+ 具有tuned-adm 框架它可帮助您为硬件设置一些基本的 I/O 性能参数。这包括设置截止期限 I/O 调度程序和在合理的情况下禁用写入屏障。对于您的新系统，您需要运行yum install tuned tuned-utils并运行tuned-adm profile enterprise-storage。

对于您的分区方案，您的旧服务器具有固定分区大小，而新系统具有 LVM。LVM 是另一个抽象层，可能在本案中产生影响。

请确保您的 RAID 缓存配置正确。您通常希望缓存偏向于写入。

了解新服务器中有哪些磁盘...但这可能并不重要，因为旧服务器的磁盘是速度最慢的企业近线 SAS 磁盘。因此，新系统可能具有性能高于或等于旧服务器磁盘的驱动器。

Question 3

在几乎所有情况下，我们的戴尔服务器性能问题都与所使用的 RAID 卡有关。他们销售的一些卡的 Linux 性能极差。

参见http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS 对阵http://hwraid.le-vert.net/wiki/LSIFusionMPTSAS2

比较一下这些机器上的两块显卡。后者是低端显卡，可能根本没有硬件加速功能，而前者是极好的高端显卡，具有良好的板载硬件。

Answer

在几乎所有情况下，我们的戴尔服务器性能问题都与所使用的 RAID 卡有关。他们销售的一些卡的 Linux 性能极差。

参见http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS 对阵http://hwraid.le-vert.net/wiki/LSIFusionMPTSAS2

比较一下这些机器上的两块显卡。后者是低端显卡，可能根本没有硬件加速功能，而前者是极好的高端显卡，具有良好的板载硬件。

Question 4

正如许多人所说的那样，您可能需要确保您的测试实际上测量的是您认为的内容 - 问题很可能在于测试本身，并且感知到的延迟或缓慢可能是由于 I/O 在到达磁盘之前就被绑定在内核/操作系统中。

您可以考虑查看戴尔关于第 12 代服务器 BIOS 设置中性能调整的文档 - 大多数人都不知道这个文档的存在，但您会对它所能带来的不同感到惊讶。

http://en.community.dell.com/cfs-file.ashx/__key/telligent-evolution-components-attachments/13-4491-00-00-20-24-87-40/12g_5F00_bios_5F00_tuning_5F00_for_5F00_performance_5F00_power.pdf

Answer

正如许多人所说的那样，您可能需要确保您的测试实际上测量的是您认为的内容 - 问题很可能在于测试本身，并且感知到的延迟或缓慢可能是由于 I/O 在到达磁盘之前就被绑定在内核/操作系统中。

您可以考虑查看戴尔关于第 12 代服务器 BIOS 设置中性能调整的文档 - 大多数人都不知道这个文档的存在，但您会对它所能带来的不同感到惊讶。

http://en.community.dell.com/cfs-file.ashx/__key/telligent-evolution-components-attachments/13-4491-00-00-20-24-87-40/12g_5F00_bios_5F00_tuning_5F00_for_5F00_performance_5F00_power.pdf

Dell R720 服务器登录时进程运行缓慢

答案1

答案2

答案3

答案4

相关内容