网站瘫痪，无法通过 Ubuntu 14.04 x64 Digitalocean 上的 SSH/Putty 登录

Question 1

Digital Ocean 提供从控制面板访问控制台的功能。系统停机时使用该功能登录并收集信息，获得信息后使用该功能决定下一步该怎么做。其他一切都是猜测，根据您提供的信息，我猜是英仙座流星雨。

采用结构化和有条理的方法比四处乱窜要好得多。

我个人认为科学的方法（其他人称之为有些不同) 是系统管理工具包中诊断问题时可以使用的一个非常好的工具。

服务停止响应。

现在我们知道了要解决的实际问题，我们有了一些方向。让我们收集一些信息来帮助我们找到解决方案。
- 问题是否与时间有关？它是定期发生还是随机发生。
- 检查您的日志，检查所有日志，而不仅仅是特定服务的日志，因为其他原因可能会导致问题。日志条目通常有时间戳，这是为了帮助您关联多个应用程序和服务之间的事件 - 使用它们。如有必要，也可以增加日志详细程度。
- 观察你的系统在做什么。使用 top、vmstat、iostat、sar、ps、tcpdump 等工具，甚至全面的工具监控系统。
分析您收集到的信息。当服务停止响应时，系统上究竟发生了什么？系统资源的状态如何？
采取适当的措施进行补救。希望您能清楚地知道发生了什么，内存不足，OOM 杀手开始发挥作用，您的交换活动太高，您的运行队列太长，您受到 iobound 等。如果情况不明显，那么您可能没有收集正确的数据 - 您知道该怎么做，请返回 2。
监控4.处引入的变更。
这些变化解决了问题吗？是好转了吗？还是恶化了？没有区别吗？接下来该怎么做取决于你发现了什么。你可能需要回到 2. 并收集更多相关数据，或者 3. 重新分析你拥有的数据，或者 4. 因为你已经确定了许多潜在的解决方案。
记录您的发现和所做的更改。
回到床上 / 下班回家 / 去酒吧。

Answer

Digital Ocean 提供从控制面板访问控制台的功能。系统停机时使用该功能登录并收集信息，获得信息后使用该功能决定下一步该怎么做。其他一切都是猜测，根据您提供的信息，我猜是英仙座流星雨。

采用结构化和有条理的方法比四处乱窜要好得多。

我个人认为科学的方法（其他人称之为有些不同) 是系统管理工具包中诊断问题时可以使用的一个非常好的工具。

服务停止响应。

现在我们知道了要解决的实际问题，我们有了一些方向。让我们收集一些信息来帮助我们找到解决方案。
- 问题是否与时间有关？它是定期发生还是随机发生。
- 检查您的日志，检查所有日志，而不仅仅是特定服务的日志，因为其他原因可能会导致问题。日志条目通常有时间戳，这是为了帮助您关联多个应用程序和服务之间的事件 - 使用它们。如有必要，也可以增加日志详细程度。
- 观察你的系统在做什么。使用 top、vmstat、iostat、sar、ps、tcpdump 等工具，甚至全面的工具监控系统。
分析您收集到的信息。当服务停止响应时，系统上究竟发生了什么？系统资源的状态如何？
采取适当的措施进行补救。希望您能清楚地知道发生了什么，内存不足，OOM 杀手开始发挥作用，您的交换活动太高，您的运行队列太长，您受到 iobound 等。如果情况不明显，那么您可能没有收集正确的数据 - 您知道该怎么做，请返回 2。
监控4.处引入的变更。
这些变化解决了问题吗？是好转了吗？还是恶化了？没有区别吗？接下来该怎么做取决于你发现了什么。你可能需要回到 2. 并收集更多相关数据，或者 3. 重新分析你拥有的数据，或者 4. 因为你已经确定了许多潜在的解决方案。
记录您的发现和所做的更改。
回到床上 / 下班回家 / 去酒吧。

Question 2

我同意上述观点。采取有条不紊的方法来解决这个问题，乱挥动翅膀通常没有用。

SSH 守护进程似乎停止了，因此请通过主机控制面板进入具有控制台访问权限的机器（如果它们不提供控制台访问权限，则移动主机）并重新启动服务。现在查看日志，使用 top 或 iotop 等工具监控系统性能，并尝试找出 SSH 停止前机器发生了什么。

记录您所做的任何更改以及最终采取的修复措施非常重要。

汤姆

Answer

我同意上述观点。采取有条不紊的方法来解决这个问题，乱挥动翅膀通常没有用。

SSH 守护进程似乎停止了，因此请通过主机控制面板进入具有控制台访问权限的机器（如果它们不提供控制台访问权限，则移动主机）并重新启动服务。现在查看日志，使用 top 或 iotop 等工具监控系统性能，并尝试找出 SSH 停止前机器发生了什么。

记录您所做的任何更改以及最终采取的修复措施非常重要。

汤姆

相关内容