出现许多段错误、RAM 故障？

Question

虚拟内存不是那样工作的。每个进程都有自己的地址空间，用于存放所有东西，包括指令指针 (ip) 和堆栈指针 (sp)。这更有可能是低级代码中的内存管理问题。尽管也有可能出现硬件内存故障。

发生这种情况时获取崩溃转储并使用 C 调试器查看它们。从 libcoreclr.so 库和 .NET cmdline .NET 应用程序自然参与其中。显然，微软有具体的建议和工具，请参阅他们的文档分析 Linux 上的转储。

配置保存转储文件，例如环境变量.DOTNET_DbgEnableMiniDump=1 并且 DOTNET_EnableCrashReport=1 看起来很有用。还要注意，你的操作系统发行版可能有自己的崩溃转储处理，我不清楚它们如何交互。

按照文档所述将崩溃转储加载到 LLDB。 lldb --core <dump-file> <host-program> 然后尝试sos 调试器扩展. 通常，当您不熟悉某个程序时，堆栈跟踪有助于缩小搜索范围。 sos CLRStack 针对托管代码和 sos DumpStack 所有代码。

收集已安装或与应用程序捆绑的每个 dotnet 运行时的版本信息。安装不同的版本并确认它们是否受到影响，例如升级到正在使用的最新版本。或者降级到之前可以运行的任何版本。

微软声称你可以通过以下方式获得.NET 帮助支持渠道。尽管调试到底发生了什么可能需要有人对运行时进行破解。一旦您拥有受影响的函数，请考虑通过 Stack Overflow 或 dotnet 问题跟踪器运行它。

对于非 dotnet 崩溃，使用转储仍然可以附加 lldb 等调试器。至少回溯会很有用，可以查看代码中是否出现了任何模式。

请注意，软件故障可能存在于源代码中，也可能是某些内存管理中的错误。或者可能是损坏的，您的副本中的某些位被翻转，并且正在做坏事。验证已安装软件的完整性。考虑使用完全相同的软件包构建另一个这样的主机，验证存储库的签名，看看您是否可以重现该问题。

在调查软件故障的同时，您可能希望继续调查硬件故障。

如果更换内存、CPU 和主板后仍然出现故障，要么是您没有找到故障组件，要么您是最不幸的人，收到了新的故障硬件，要么您的物理环境非常恶劣，要么是其他原因。这仍然是一个非常广泛的调查，从您分享的内容中我们只能知道某些程序崩溃了。

RAM 模块不断传输大量数据，错误率极低。操作系统大部分时间运行正常但程序有时会崩溃的问题很难找到根本原因。内存错误需要 ECC RAM 才能准确诊断，并获取硬件。不幸的是，英特尔和其他公司对其产品进行细分，通常只在服务器机箱上进行。也许可以从微型服务器开始，这是一种可以用于各种测试目的的小型服务器，首先在具有可靠性功能的不同机箱上重现此故障。

如果你确实有 ECC RAM 和其他 RAS 硬件，当然会有软件来收集和报告故障。在 Linux 上，rasdaemon 是当前流行的工具。

如果您仍然怀疑可能是硬件问题，请最终更换所有硬件。在专业场景中，相对于应用程序故障，硬件价格便宜。有了这样的服务合同，您在更换零件方面就不会有太多争论。

尤其是电源，请更换它。检查市电质量，例如使用良好的 UPS。

以上这些只是说说而已，根据您提供的信息，很少能排除可能的故障。做好深入调查以找出根本原因的准备。

Answer 1