我们将零售软件转移到新硬件(我们从配备 SATA 7200rpm 磁盘的 IBM x3200 升级到配备 SAS 15000rpm 磁盘的 IBM x3200),但几天后,完全没有问题,我们不断收到问题
8 月 29 日 08:39:50 server01 内核:[64680.439253] Retail-soft[1089]:104 ip 处出现段错误? 081106ea sp bfd1b7c0 零售软件中的错误 4[8048000+18b000]
并且/var/log/messages
软件只是挂起或关闭。
我们假设这就是问题所在,因此更换了内存,但这种情况不断发生。
我们还可以检查什么?
我们已经安装了 Debian 的最新稳定版本。我们还排除了编程故障,因为相同的软件在其他服务器上运行完全没有问题。
答案1
您为什么认为问题出在硬件上?难道软件达到了产生分段错误的条件吗?
如果您确实想知道内存是否有问题,我建议您在日志或远程控制台(如果有)中查找ECC
错误。/var/adm/messages
你也可以运行内存测试86它在 Ubuntu 上是默认安装的,并且可以从启动菜单中获得,我不确定 Debian 是否如此,但可能是相同的。
在任何情况下都不能放弃编程失败,除非你证明没有其他原因导致失败。在其他服务器上运行的软件仅在以下情况下才成为一个指标:
- 软件执行完全相同的功能
- 软件服务相同数量的请求
- 软件服务于完全相同的请求
- 软件配置100%相同
- 硬件驱动程序之外的操作系统配置100%相同
除此之外,我将从核心分析开始,看看软件是否每次都在完全相同的地方崩溃。