我们运营一个 asp.net/sql server 数据收集网站,有不少客户倾倒数据并运行报告。我们移至新服务器(规格如下),但遇到了冻结问题,在过去六个月中不得不重新启动十几次。托管公司提到了可能的原因(如下所列),但无法明确回答到底出了什么问题。他们提出可以按照我的意愿重新配置。我们受益于更快的系统,除非问题出在 SSD 上,否则我们真的不想摆脱它们。我与他们讨论过的两种可能的设置更改也列在下面。
关于可能导致冻结问题的原因的任何建议以及有关新设置的建议都非常有用。
我的主要问题是:SSD 在同一 RAID 阵列上运行 OS 和 SQL Server 时通常会遇到问题吗?新的 SSD 是否还不够完善,无法在生产环境中运行?
谢谢
Current:
Xeon Quad Core E3-1270 3.40 Ghz
16 GB DDR3-1333 ECC SDRAM
First Hard Drive: 120GB Intel SSD
Second Hard Drive: 120GB Intel SSD
Third Hard Drive: 120GB Intel SSD
Fourth Hard Drive: 120GB Intel SSD
SAS 4 Port RAID Card
Windows 2012 Standard Edition - 64 Bit
MSSQL 2008 Web Edition
Possible Causes:
Running Sql Server & OS on same RAID Array
OS Software Issues
Using SSD's
CPU Underpowered
Not enough RAM
Option 1
2x Xeon Quad Core E5-2603 1.80 GHz
16 GB DDR3-1333 ECC SDRAM
1 x 240GB Intel SSD - OS
3 x 1 TB SATA HDD (7200 RPM) - SQL Server
SATA 4 Port RAID Card
Windows 2012 Standard Edition - 64 Bit
Option 2
Dell PowerEdge E3-1270v2 3.5GHz 4 Cores
16 GB DDR3-1600 UDIMM
4 x 128 GB Samsung 840 Pro SSD
Add-in H200 (SAS/SATA Controller), 4 Hard Drives - RAID 10
Windows 2012 Standard Edition - 64 Bit
答案1
如果需要重启,问题不太可能出在整体硬件配置上。完全重启表明硬件可能存在根本性问题(但也可能出在软件上)
下一步:
- 监控系统的可用 RAM
- 监视可用磁盘空间
您要尝试回答的是:
- 服务器是否资源耗尽,导致 SQL 或操作系统陷入困境,需要重新启动,或者
- 硬件本身是否出现问题(意味着您的提供商需要修复硬件)
例如,如果您甚至无法通过 RDP 连接到系统,则意味着硬件本身存在问题。
答案2
- SSD 通常适用于服务器环境,只要它们的规格正确并且适合工作负载/应用程序。
- 托管服务提供商有点糟糕。他们通常部署低端硬件,因为在很多情况下,这是一个利润微薄的行业。他们会诉诸于给你一个“底盘互换”如果他们找不到问题的根本原因。
- 白盒或自制服务器硬件通常缺乏品牌设备可以拥有的对操作系统/驱动程序/硬件交互的洞察力。例如,HP 和 Dell 会告诉你操作系统崩溃的原因,或者会有一个看门狗定时器。此外,带外管理接口(IPMI、DRAC、ILO)将提供有用的信息。
在你列出的选项中,我会要求戴尔选项2,配置Dell OpenManage 代理。
答案3
检查事件查看器。您通常会在其中看到错误,这应该为您提供故障排除的起点。如果您还没有,您可能需要运行一些 Microsoft 的“最佳实践”工具。它们将帮助您找到配置问题。