调整使用 CoreOS 的 Digital Ocean Droplets 的大小会破坏 CoreOs 集群

2024-5-30 • tag-icon

调整使用 CoreOS 的 Digital Ocean Droplets 的大小会破坏 CoreOs 集群

我是 CoreOs 的新手，一直在 DigitalOcean 上试用。首先我要说的是，我不确定这是 DigitalOcean 的问题还是 CoreOS 的问题。

如何复制：

启动 2 个 CoreOS 并通过 Cloud-Config 将它们链接在一起形成集群。
在 Digital Ocean 仪表板中，关闭两个 droplet 并调整大小。
启动两个液滴。
ssh 进入其中一个 droplet
运行 fleetctl list-machines

你应该得到

2015/04/22 21:05:50 INFO client.go:291：无法从 http://127.0.0.1:4001/ 获取响应：拨号 tcp 127.0.0.1:4001：连接被拒绝
2015/04/22 21:05:50 错误 client.go:213：无法获取 {Get /coreos.com/fleet/machines} 的结果，100 毫秒后重试
2015/04/22 21:05:50 INFO client.go:291：无法从 http://127.0.0.1:4001/ 获取响应：拨号 tcp 127.0.0.1:4001：连接被拒绝
2015/04/22 21:05:50 错误 client.go:213：无法获取 {Get /coreos.com/fleet/machines} 的结果，200 毫秒后重试
2015/04/22 21:05:50 INFO client.go:291：无法从 http://127.0.0.1:4001/ 获取响应：拨号 tcp 127.0.0.1:4001：连接被拒绝
2015/04/22 21:05:50 错误 client.go:213：无法获取 {Get /coreos.com/fleet/machines} 的结果，400 毫秒后重试
2015/04/22 21:05:51 INFO client.go:291：无法从 http://127.0.0.1:4001/ 获取响应：拨号 tcp 127.0.0.1:4001：连接被拒绝
2015/04/22 21:05:51 错误 client.go:213：无法获取 {Get /coreos.com/fleet/machines} 的结果，800 毫秒后重试
2015/04/22 21:05:51 INFO client.go:291：无法从 http://127.0.0.1:4001/ 获取响应：拨号 tcp 127.0.0.1:4001：连接被拒绝
2015/04/22 21:05:51 错误 client.go:213：无法获取 {Get /_coreos.com/fleet/machines} 的结果，1 秒后重试

执行 journalctl -u etcd
将显示

4 月 22 日 14:38:02 测试 etcd[578]: [etcd] 4 月 22 日 14:38:02.471 INFO | f507c71154cc47b1804558c7298d0313: 状态从“领导者”更改为“追随者”。
4 月 22 日 14:38:02 测试 etcd[578]: [etcd] 4 月 22 日 14:38:02.471 INFO | f507c71154cc47b1804558c7298d0313: 术语 #7 已开始。
4 月 22 日 14:38:02 测试 etcd[578]: [etcd] 4 月 22 日 14:38:02.471 INFO | f507c71154cc47b1804558c7298d0313: 领导者从 'f507c71154cc47b1804558c7298d0313' 更改为 ''。
4 月 22 日 14:38:11 测试 etcd[578]: [etcd] 4 月 22 日 14:38:11.257 INFO | f507c71154cc47b1804558c7298d0313: 状态从“跟随者”更改为“候选人”。
4 月 22 日 14:38:11 测试 etcd[578]: [etcd] 4 月 22 日 14:38:11.258 INFO | f507c71154cc47b1804558c7298d0313: 领导者从“fa61f58c81fd4e7abe9ac0b6585fafef”更改为“”。
4 月 22 日 14:38:11 测试 etcd[578]: [etcd] 4 月 22 日 14:38:11.546 INFO | f507c71154cc47b1804558c7298d0313: 状态从“候选”更改为“跟随者”。
4 月 22 日 14:38:11 测试 etcd[578]: [etcd] 4 月 22 日 14:38:11.547 INFO | f507c71154cc47b1804558c7298d0313: 术语 #9 已开始。
4 月 22 日 14:41:14 测试 etcd[578]: [etcd] 4 月 22 日 14:41:14.847 INFO | f507c71154cc47b1804558c7298d0313: 索引 10004 处的 10004 个事件的快照已完成
4月22日 14:53:45 测试 etcd[578]: [etcd] 4月22日 14:53:45.297 INFO | f507c71154cc47b1804558c7298d0313: 警告: 心跳接近选举超时: 359.350151ms
4月22日 14:55:22 测试 etcd[578]: [etcd] 4月22日 14:55:22.381 INFO | f507c71154cc47b1804558c7298d0313: 警告: 心跳接近选举超时: 1.574255587s
4 月 22 日 15:31:17 测试 etcd[578]: [etcd] 4 月 22 日 15:31:17.551 INFO | f507c71154cc47b1804558c7298d0313: 索引 20005 处的 10001 个事件的快照已完成
4 月 22 日 16:19:53 测试 etcd[578]: [etcd] 4 月 22 日 16:19:53.870 INFO | f507c71154cc47b1804558c7298d0313: 索引 30012 处的 10007 个事件的快照已完成
4 月 22 日 17:08:00 测试 etcd[578]: [etcd] 4 月 22 日 17:08:00.254 INFO | f507c71154cc47b1804558c7298d0313: 索引 40019 处的 10007 个事件的快照已完成
4 月 22 日 17:57:30 测试 etcd[578]: [etcd] 4 月 22 日 17:57:30.622 INFO | f507c71154cc47b1804558c7298d0313: 索引 50027 处的 10008 个事件的快照已完成
4 月 22 日 18:48:04 测试 etcd[578]: [etcd] 4 月 22 日 18:48:04.084 INFO | f507c71154cc47b1804558c7298d0313: 索引 60035 处的 10008 个事件的快照已完成
4 月 22 日 19:38:37 测试 etcd[578]: [etcd] 4 月 22 日 19:38:37.641 INFO | f507c71154cc47b1804558c7298d0313: 索引 70042 处的 10007 个事件的快照已完成
4 月 22 日 20:07:41 测试 etcd[578]: [etcd] 4 月 22 日 20:07:39.493 INFO | f507c71154cc47b1804558c7298d0313: 状态从“跟随者”更改为“候选人”。
4 月 22 日 20:07:44 测试 etcd[578]: [etcd] 4 月 22 日 20:07:44.282 INFO | f507c71154cc47b1804558c7298d0313: 领导者从“fa61f58c81fd4e7abe9ac0b6585fafef”更改为“”。
4 月 22 日 20:07:44 测试 etcd[578]: [etcd] 4 月 22 日 20:07:44.895 INFO | f507c71154cc47b1804558c7298d0313: 状态从“候选”更改为“跟随者”。
4 月 22 日 20:07:44 测试 etcd[578]: [etcd] 4 月 22 日 20:07:44.899 INFO | f507c71154cc47b1804558c7298d0313: 术语 #13 已开始。
4 月 22 日 20:09:39 测试 etcd[578]: [etcd] 4 月 22 日 20:09:39.269 INFO | f507c71154cc47b1804558c7298d0313: 状态从“关注者”更改为“候选人”。
4 月 22 日 20:09:39 测试 etcd[578]：[etcd] 4 月 22 日 20：09：39.302 INFO | f507c71154cc47b1804558c7298d0313：领导者从“fa61f58c81fd4e7abe9ac0b6585fafef”更改为“”。
4 月 22 日 20:09:39 测试 etcd[578]: [etcd] 4 月 22 日 20:09:39.631 INFO | f507c71154cc47b1804558c7298d0313: 状态从“候选”更改为“跟随者”。
4 月 22 日 20:09:39 测试 etcd[578]: [etcd] 4 月 22 日 20:09:39.632 INFO | f507c71154cc47b1804558c7298d0313: 术语 #15 已开始。
4 月 22 日 20:11:18 测试 systemd[1]: 正在停止 etcd...
4 月 22 日 20:11:18 测试 systemd[1]: etcd.service: 主进程已退出，代码=exited，状态=2/INVALIDARGUMENT
4 月 22 日 20:11:18 测试 systemd[1]: 已停止 etcd。
4 月 22 日 20:11:18 测试 systemd[1]: 单元 etcd.service 进入失败状态。
4 月 22 日 20:11:18 测试 systemd[1]: etcd.service 失败。

下面将显示 systemctl cat etcd.service

/usr/lib64/systemd/system/etcd.service
[单元]
描述=etcd

[服务]
用户=etcd
权限启动仅=true
环境=ETCDDATADIR=/var/lib/etcd
环境=ETCD_NAME=％m
ExecStart=/usr/bin/etcd
重启=总是
重启安全策略=10s
限制NOFILE=40000

这是 CoreOS 的问题吗？几乎整个 CoreOS 集群都坏了。机器不再连接，我似乎无法找到将它们重新连接起来的方法，也无法找到如何防止这种情况发生的方法。我在网上找不到任何相关信息。

答案1

好的，经过几个小时的调试，我得出结论，当您关闭 droplet、调整 droplet 大小并打开 droplet 时，Digital Ocean 不会尊重云配置。我设法通过在每个服务器实例内创建另一个云配置并执行以下命令，将实例重新链接到集群中。
sudo coreos-cloudinit --from-file cloud-config.yml

答案1

相关内容