我们有一个正在运行的 api,它每天接收一次插入 mongodb 的多批大数据。我们使用cvallance/mongo-k8s-sidecar
进行复制集配置
这在本地 mongodatabase 上完美运行。
数据库上也没有可以引发引发条件等的生产流量。
现在我们将其部署到 Google 容器引擎。导入通常也可以正常工作。但有时我们会遇到这样的超时异常:
无法运行 replSetReconfig,因为节点当前正在更新其配置
或者
MongoDB.Driver.MongoCommandException:命令插入失败:BSONObj 大小:16793637 (0x1004025) 无效。大小必须介于 0 和 16793600(16MB) 之间 第一个元素:插入:“LandingPageConnectionSet_Stage”。
或者
工作循环中的错误{MongoError:连接 0 到 127.0.0.1:27017 超时,位于 Function.MongoError.create(/opt/cvallance/mongo-k8s-sidecar/node_modules/mongodb-core/lib/error.js:29:11)在 Socket。(/opt/cvallance/mongo-k8s-sidecar/node_modules/mongodb-core/lib/connection/connection.js:198:20)位于 Object.onceWrapper(events.js:254:19)位于 Socket.emit(events.js:159:13)位于 Socket._onTimeout(net.js:411:8)位于 ontimeout(timers.js:478:11)位于 tryOnTimeout(timers.js:302:5)位于 Timer.listOnTimeout(timers.js:262:5)
我可以看到 CPU 似乎尚未达到其极限。
Kubernetes 中针对 MongoDB 的配置
---
kind: StorageClass
apiVersion: storage.k8s.io/v1
metadata:
name: fast
provisioner: kubernetes.io/gce-pd
parameters:
type: pd-ssd
---
apiVersion: v1
kind: Service
metadata:
name: mongo
labels:
name: mongo
spec:
ports:
- port: 27017
targetPort: 27017
clusterIP: None
selector:
role: mongo
---
apiVersion: apps/v1beta1
kind: StatefulSet
metadata:
name: mongo
spec:
serviceName: "mongo"
replicas: 3
template:
metadata:
labels:
role: mongo
environment: test
spec:
terminationGracePeriodSeconds: 10
containers:
- name: mongo
image: mongo:3.6
command:
- mongod
- "--replSet"
- rs0
- "--bind_ip"
- 0.0.0.0
- "--smallfiles"
- "--noprealloc"
ports:
- containerPort: 27017
volumeMounts:
- name: mongo-persistent-storage
mountPath: /data/db
- name: mongo-sidecar
image: cvallance/mongo-k8s-sidecar
env:
- name: MONGO_SIDECAR_POD_LABELS
value: "role=mongo,environment=test"
volumeClaimTemplates:
- metadata:
name: mongo-persistent-storage
annotations:
volume.beta.kubernetes.io/storage-class: "fast"
spec:
accessModes: [ "ReadWriteOnce" ]
resources:
requests:
storage: 32Gi
我们还通过限制 wiretiger 缓存大小和删除 smallfiles 选项对配置进行了一些修改,因此配置中的部分如下所示:
- mongod
- "--replSet"
- rs0
- "--bind_ip"
- 0.0.0.0
- "--noprealloc"
- "--wiredTigerCacheSizeGB"
- "1.5"
答案1
我与 Boas Enkler 检查了日志和 kubernetes 仪表板。
在 Kubernetes 仪表板中,有关 POD 的状态有以下提示:
Pod Name: kube-lego-*****-***
Status: Evicted
Reason: The node was low on resource: memory.
您可以通过以下方式获取相同的信息kubectl describe pod [podname]
请注意引用文档:“如果 kubelet 无法在节点上回收足够的资源,kubelet 将开始驱逐 Pod。”
因此,我相信错误出在 Mongodb 上,因为它在本地运行没有任何问题,为了仔细检查,我们查看了控制台串行输出显示的内核日志,我们发现:
Memory cgroup out of memory: Kill process 4**7 (mongod) score 1494 or sacrifice child
...
Memory cgroup out of memory: Kill process 1**8 (mongod) score 1538 or sacrifice child
我们还注意到,部署的 YAML 文件中没有内存请求字段。这是一个问题,因为即使有三个节点没有工作负载,所有 POD 也可能在同一个节点上启动,因为它们理论上是合适的。
为了缓解这种行为,有一些可能的解决方案:
垂直扩展集群并引入内存请求值
指导mongodb 进程消耗的内存量小于请求的内存量。
如果您在同一个节点上运行多个容器,并且希望避免它们被内存限制杀死,则引入内存限制是必不可少的。考虑到这种方式有时会被杀死,即使节点上仍有可用内存。