我是 CoreOs 的新手,一直在 DigitalOcean 上试用。首先我要说的是,我不确定这是 DigitalOcean 的问题还是 CoreOS 的问题。
如何复制:
- 启动 2 个 CoreOS 并通过 Cloud-Config 将它们链接在一起形成集群。
- 在 Digital Ocean 仪表板中,关闭两个 droplet 并调整大小。
- 启动两个液滴。
- ssh 进入其中一个 droplet
- 运行 fleetctl list-machines
你应该得到
2015/04/22 21:05:50 INFO client.go:291:无法从 http://127.0.0.1:4001/ 获取响应:拨号 tcp 127.0.0.1:4001:连接被拒绝 2015/04/22 21:05:50 错误 client.go:213:无法获取 {Get /coreos.com/fleet/machines} 的结果,100 毫秒后重试 2015/04/22 21:05:50 INFO client.go:291:无法从 http://127.0.0.1:4001/ 获取响应:拨号 tcp 127.0.0.1:4001:连接被拒绝 2015/04/22 21:05:50 错误 client.go:213:无法获取 {Get /coreos.com/fleet/machines} 的结果,200 毫秒后重试 2015/04/22 21:05:50 INFO client.go:291:无法从 http://127.0.0.1:4001/ 获取响应:拨号 tcp 127.0.0.1:4001:连接被拒绝 2015/04/22 21:05:50 错误 client.go:213:无法获取 {Get /coreos.com/fleet/machines} 的结果,400 毫秒后重试 2015/04/22 21:05:51 INFO client.go:291:无法从 http://127.0.0.1:4001/ 获取响应:拨号 tcp 127.0.0.1:4001:连接被拒绝 2015/04/22 21:05:51 错误 client.go:213:无法获取 {Get /coreos.com/fleet/machines} 的结果,800 毫秒后重试 2015/04/22 21:05:51 INFO client.go:291:无法从 http://127.0.0.1:4001/ 获取响应:拨号 tcp 127.0.0.1:4001:连接被拒绝 2015/04/22 21:05:51 错误 client.go:213:无法获取 {Get /_coreos.com/fleet/machines} 的结果,1 秒后重试
执行 journalctl -u etcd
将显示
4 月 22 日 14:38:02 测试 etcd[578]: [etcd] 4 月 22 日 14:38:02.471 INFO | f507c71154cc47b1804558c7298d0313: 状态从“领导者”更改为“追随者”。 4 月 22 日 14:38:02 测试 etcd[578]: [etcd] 4 月 22 日 14:38:02.471 INFO | f507c71154cc47b1804558c7298d0313: 术语 #7 已开始。 4 月 22 日 14:38:02 测试 etcd[578]: [etcd] 4 月 22 日 14:38:02.471 INFO | f507c71154cc47b1804558c7298d0313: 领导者从 'f507c71154cc47b1804558c7298d0313' 更改为 ''。 4 月 22 日 14:38:11 测试 etcd[578]: [etcd] 4 月 22 日 14:38:11.257 INFO | f507c71154cc47b1804558c7298d0313: 状态从“跟随者”更改为“候选人”。 4 月 22 日 14:38:11 测试 etcd[578]: [etcd] 4 月 22 日 14:38:11.258 INFO | f507c71154cc47b1804558c7298d0313: 领导者从“fa61f58c81fd4e7abe9ac0b6585fafef”更改为“”。 4 月 22 日 14:38:11 测试 etcd[578]: [etcd] 4 月 22 日 14:38:11.546 INFO | f507c71154cc47b1804558c7298d0313: 状态从“候选”更改为“跟随者”。 4 月 22 日 14:38:11 测试 etcd[578]: [etcd] 4 月 22 日 14:38:11.547 INFO | f507c71154cc47b1804558c7298d0313: 术语 #9 已开始。 4 月 22 日 14:41:14 测试 etcd[578]: [etcd] 4 月 22 日 14:41:14.847 INFO | f507c71154cc47b1804558c7298d0313: 索引 10004 处的 10004 个事件的快照已完成 4月22日 14:53:45 测试 etcd[578]: [etcd] 4月22日 14:53:45.297 INFO | f507c71154cc47b1804558c7298d0313: 警告: 心跳接近选举超时: 359.350151ms 4月22日 14:55:22 测试 etcd[578]: [etcd] 4月22日 14:55:22.381 INFO | f507c71154cc47b1804558c7298d0313: 警告: 心跳接近选举超时: 1.574255587s 4 月 22 日 15:31:17 测试 etcd[578]: [etcd] 4 月 22 日 15:31:17.551 INFO | f507c71154cc47b1804558c7298d0313: 索引 20005 处的 10001 个事件的快照已完成 4 月 22 日 16:19:53 测试 etcd[578]: [etcd] 4 月 22 日 16:19:53.870 INFO | f507c71154cc47b1804558c7298d0313: 索引 30012 处的 10007 个事件的快照已完成 4 月 22 日 17:08:00 测试 etcd[578]: [etcd] 4 月 22 日 17:08:00.254 INFO | f507c71154cc47b1804558c7298d0313: 索引 40019 处的 10007 个事件的快照已完成 4 月 22 日 17:57:30 测试 etcd[578]: [etcd] 4 月 22 日 17:57:30.622 INFO | f507c71154cc47b1804558c7298d0313: 索引 50027 处的 10008 个事件的快照已完成 4 月 22 日 18:48:04 测试 etcd[578]: [etcd] 4 月 22 日 18:48:04.084 INFO | f507c71154cc47b1804558c7298d0313: 索引 60035 处的 10008 个事件的快照已完成 4 月 22 日 19:38:37 测试 etcd[578]: [etcd] 4 月 22 日 19:38:37.641 INFO | f507c71154cc47b1804558c7298d0313: 索引 70042 处的 10007 个事件的快照已完成 4 月 22 日 20:07:41 测试 etcd[578]: [etcd] 4 月 22 日 20:07:39.493 INFO | f507c71154cc47b1804558c7298d0313: 状态从“跟随者”更改为“候选人”。 4 月 22 日 20:07:44 测试 etcd[578]: [etcd] 4 月 22 日 20:07:44.282 INFO | f507c71154cc47b1804558c7298d0313: 领导者从“fa61f58c81fd4e7abe9ac0b6585fafef”更改为“”。 4 月 22 日 20:07:44 测试 etcd[578]: [etcd] 4 月 22 日 20:07:44.895 INFO | f507c71154cc47b1804558c7298d0313: 状态从“候选”更改为“跟随者”。 4 月 22 日 20:07:44 测试 etcd[578]: [etcd] 4 月 22 日 20:07:44.899 INFO | f507c71154cc47b1804558c7298d0313: 术语 #13 已开始。 4 月 22 日 20:09:39 测试 etcd[578]: [etcd] 4 月 22 日 20:09:39.269 INFO | f507c71154cc47b1804558c7298d0313: 状态从“关注者”更改为“候选人”。 4 月 22 日 20:09:39 测试 etcd[578]:[etcd] 4 月 22 日 20:09:39.302 INFO | f507c71154cc47b1804558c7298d0313:领导者从“fa61f58c81fd4e7abe9ac0b6585fafef”更改为“”。 4 月 22 日 20:09:39 测试 etcd[578]: [etcd] 4 月 22 日 20:09:39.631 INFO | f507c71154cc47b1804558c7298d0313: 状态从“候选”更改为“跟随者”。 4 月 22 日 20:09:39 测试 etcd[578]: [etcd] 4 月 22 日 20:09:39.632 INFO | f507c71154cc47b1804558c7298d0313: 术语 #15 已开始。 4 月 22 日 20:11:18 测试 systemd[1]: 正在停止 etcd... 4 月 22 日 20:11:18 测试 systemd[1]: etcd.service: 主进程已退出,代码=exited,状态=2/INVALIDARGUMENT 4 月 22 日 20:11:18 测试 systemd[1]: 已停止 etcd。 4 月 22 日 20:11:18 测试 systemd[1]: 单元 etcd.service 进入失败状态。 4 月 22 日 20:11:18 测试 systemd[1]: etcd.service 失败。
下面将显示 systemctl cat etcd.service
/usr/lib64/systemd/system/etcd.service [单元] 描述=etcd [服务] 用户=etcd 权限启动仅=true 环境=ETCDDATADIR=/var/lib/etcd 环境=ETCD_NAME=%m ExecStart=/usr/bin/etcd 重启=总是 重启安全策略=10s 限制NOFILE=40000
这是 CoreOS 的问题吗?几乎整个 CoreOS 集群都坏了。机器不再连接,我似乎无法找到将它们重新连接起来的方法,也无法找到如何防止这种情况发生的方法。我在网上找不到任何相关信息。
答案1
好的,经过几个小时的调试,我得出结论,当您关闭 droplet、调整 droplet 大小并打开 droplet 时,Digital Ocean 不会尊重云配置。我设法通过在每个服务器实例内创建另一个云配置并执行以下命令,将实例重新链接到集群中。
sudo coreos-cloudinit --from-file cloud-config.yml