我有一个 2 节点集群,配置了CentOS 7.6
最新的docker
和pacemaker
包。
我目前正在尝试为几个容器提供 HA,但在配置pacemaker
资源后ocf:heartbeat:docker
,所有容器都无法运行。我尝试使用一个简单的alpine
容器,除了资源代理所需的参数外没有任何其他参数,但它仍然无法运行。
有人可以解释一下这是什么原因造成的以及如何解决这个问题吗?
以下输出是从 捕获的crm_mon
。
[root@drbd-node01 ~]# crm_mon -Arf1
Stack: corosync
Current DC: drbd-node01 (version 1.1.19-8.el7_6.4-c3c624ea3d) - partition with quorum
Last updated: Fri Sep 13 19:50:54 2019
Last change: Thu Sep 12 17:25:22 2019 by hacluster via cibadmin on drbd-node01
2 nodes configured
4 resources configured
Online: [ drbd-node01 drbd-node02 ]
Full list of resources:
blog-vip (ocf::heartbeat:IPaddr2): Started drbd-node01
Clone Set: blog-drbd-svcs-clone [blog-drbd-svcs]
Started: [ drbd-node01 drbd-node02 ]
test_docker (ocf::heartbeat:docker): FAILED drbd-node01 (Monitoring)
Node Attributes:
* Node drbd-node01:
* Node drbd-node02:
Migration Summary:
* Node drbd-node01:
test_docker: migration-threshold=1000000 fail-count=78996 last-failure='Fri Sep 13 19:50:54 2019'
* Node drbd-node02:
test_docker: migration-threshold=1000000 fail-count=1000000 last-failure='Thu Sep 12 17:25:53 2019'
Failed Actions:
* test_docker_start_0 on drbd-node01 'unknown error' (1): call=348928, status=complete, exitreason='Newly created docker container exited after start',
last-rc-change='Fri Sep 13 19:50:53 2019', queued=0ms, exec=1098ms
* test_docker_start_0 on drbd-node02 'unknown error' (1): call=94, status=complete, exitreason='Newly created docker container exited after start',
last-rc-change='Thu Sep 12 17:25:53 2019', queued=0ms, exec=489ms
答案1
在对命令进行了一些修改后,我找到了解决方案pcs resource create
。问题出在我为参数提供值的方式上run_opts
。必须将答案封装在其中""
才能正确运行。
pcs resource create blog_db_docker ocf:heartbeat:docker image=mariadb reuse=true allow_pull=true run_opts="--volume-driver drbdmanage -v blogdb:/var/lib/mysql --expose=3306 --env MYSQL_ROOT_PASSWORD=abc123" op monitor interval=30s