Linux 服务器只使用了 60% 的内存，然后进行交换

Question 1

Bacula 的性能高度依赖于数据库。很可能是 postgresql 导致您的服务器崩溃。高负载平均值和相当大比例的 CPU 等待时间清楚地表明它正在等待磁盘 I/O... 而这正是 PostgreSQL 的所作所为。对于备份集中的每个文件，它至少执行一个 UPDATE 语句。不必担心交换。

请调整 PostgreSQL 安装。可能要为各个数据库（甚至表）提供自己的磁盘/RAID 集以分散 I/O。如果尚未使用，您可以强制 PostgreSQL 使用异步写入...尽管这是以数据库完整性换取写入性能。尽可能增加 PostgreSQL 可用的共享内存。这至少会减轻数据库上的大量读取。如果您从未这样做过，请在 Bacula 数据库上运行 VACCUM ANALYZE，以便为查询优化器提供一些工作。

到目前为止，Bacula 最薄弱的环节是数据库依赖性（以及其中一些的脑死亡......）运行最近的大型备份清除，并注意运行几千万个查询需要多长时间（通常需要数小时）......Bacula 喜欢相对较少的大文件，否则它就是一只狗。

Answer

Bacula 的性能高度依赖于数据库。很可能是 postgresql 导致您的服务器崩溃。高负载平均值和相当大比例的 CPU 等待时间清楚地表明它正在等待磁盘 I/O... 而这正是 PostgreSQL 的所作所为。对于备份集中的每个文件，它至少执行一个 UPDATE 语句。不必担心交换。

请调整 PostgreSQL 安装。可能要为各个数据库（甚至表）提供自己的磁盘/RAID 集以分散 I/O。如果尚未使用，您可以强制 PostgreSQL 使用异步写入...尽管这是以数据库完整性换取写入性能。尽可能增加 PostgreSQL 可用的共享内存。这至少会减轻数据库上的大量读取。如果您从未这样做过，请在 Bacula 数据库上运行 VACCUM ANALYZE，以便为查询优化器提供一些工作。

到目前为止，Bacula 最薄弱的环节是数据库依赖性（以及其中一些的脑死亡......）运行最近的大型备份清除，并注意运行几千万个查询需要多长时间（通常需要数小时）......Bacula 喜欢相对较少的大文件，否则它就是一只狗。

Question 2

您受到 I/O 限制。 您的系统就像一艘小救生筏，在 100 英尺高的缓冲区/缓存/虚拟机分页浪潮中不断受创。

哇。真是……哇。你的 I/O 传输速度约为 100Mbyte/sec，I/O 等待时间已超过 50% 的 CPU 时间，并且有 4Gb 的 RAM。此服务器 VM 上的背压一定非常大。在“正常”情况下，当系统开始缓冲/缓存时，你拥有的任何可用 RAM 都将不到40秒就被活活吃掉。

是否可以发布设置从/proc/sys/vm?这将提供一些关于您的内核认为什么是“正常”的见解。

这些postmaster进程还表明您正在后台运行 PostgreSQL。这对于您的设置来说正常吗？默认配置下的 PostgreSQL 将使用很少的 RAM，但一旦重新调整速度，它就会很快占用 25%-40% 的可用 RAM。因此，鉴于输出中的数量，我只能猜测，您在运行备份的同时正在运行某种生产数据库。 这不是一个好兆头。 您能否提供更多有关其运行原因的信息？所有进程的共享内存参数的大小是多少postmaster？是否可以关闭服务，或临时重新配置数据库以在备份运行时使用更少的连接/缓冲区？这将有助于减轻已经紧张的 I/O 和可用 RAM 的一些压力。请记住，每个 postmaster进程消耗的 RAM 都超过数据库用于内部缓存的 RAM。因此，当您调整内存设置时，注意哪些是“共享的”，哪些是“每个进程的”。

如果您在备份过程中使用 PostgreSQL，请尝试重新调整它以接受只需最少数量的连接，并确保将每个进程的参数缩小到合理的范围（每个只有几兆）。这样做的缺点是如果 PostgreSQL 无法像它希望的那样处理 RAM 中的数据集，它将溢出到磁盘，因此这实际上增加你的磁盘 I/O，因此请谨慎调整。

X11 本身并不占用太多内存，但完整的桌面会话可能会占用几兆内存。注销所有活动会话并从控制台或通过 SSH 运行连接。

仍然，我认为这不完全是记忆问题。 如果你的 I/O 超过 50%，请等待较长时间（而且你发布的数字接近 70 年代的数字），由此产生的瓶颈最终会压垮系统的其余部分。就像达斯维达压碎脖子。

有人在达斯·维德的死亡之握下

多少冲洗螺纹您的配置如何？使用

cat /proc/sys/vm/nr_pdflush_threads

找出并

echo "vm.nr_pdflush_threads = 1" >> /etc/sysctl.conf

将其设置为单线程。请注意，最后一个命令使其在重新启动时永久加载。看到 1 或 2 并不罕见。如果您有多个核心或大量的主轴/总线容量用于 I/O，您将需要（稍微）增加这些。更多的刷新线程 = 更多的 I/O 活动，但也会花费更多的 CPU 时间在 I/O 等待上。

这是默认值，还是您已将其调整过？如果已将其调整过，您是否考虑过减少该数字以减少 I/O 操作的压力？或者您是否有大量主轴和通道需要使用，在这种情况下，您是否考虑过增加刷新线程的数量？

PS：您需要将 swappiness 设置为较低的值，而不是较高的值，以防止交换。最高值 = 100 = 感觉合适时疯狂交换，最低值 = 0 = 尽量不交换。

Answer