如何识别和报告损坏的 RDS 硬件

2024-5-30 • tag-icon

最近，我们 [终于] 将所有生产硬件从弃用的默认网络迁移到 VPC，包括 EC2 和 RDS 节点。一切都很顺利，除了当我们开始在生产中运行性能测试时，我们注意到与旧配置相比性能下降相当明显：至少损失了 30-40%。

经过一番思索、比较软件版本和配置后，我们决定尝试重新生成 RDS 实例。最初的目标是将我们的主数据库迁移到不同的可用区，以便进行同类比较。迁移完成后，我们发现性能恢复正常，但我严重怀疑可用区是否是导致我们痛苦的根源。我简直不敢相信几毫秒（最多）的延迟会导致这么多问题，尤其是不同的查询客户端可用区似乎对性能没有影响。

我怀疑我们要么是遇到了一些有问题的 m3.large RDS 硬件，要么是我们的实例有一个特别吵闹的邻居。

有人曾经见过这种类型的每个实例的性能差异吗？
我们还可以进行其他调试来更好地诊断这个问题吗？
在向 AWS 支持部门报告此问题时，一级人员表示他们不知道我内部使用的硬件。这是真的吗？我并没有要求任何身份证明，但我希望他们可以为物理团队标记硬件。我可以做哪些不同的事情？

谢谢您的反馈。

答案1

您使用经典的 IT 解决方案 - 关闭然后重新打开。这几乎肯定会让您使用新硬件。如果您担心停机，您可能需要先设置镜像或读取副本。

你不用报告，只要继续前进就行了。

答案1

相关内容