我正在尝试在本地部署 kubeflow 集群(使用虚拟机)。
首先介绍一些背景信息:
我遵循了官方指南,但有一个例外 - 我将文件导入kubectl kustomize
yaml 文件以便查看。该文件非常庞大(130k 行),因此手动读取它实际上不是一个选择。
部署部分成功,但似乎并非所有资源都已生成 - 主要是围绕许多服务所需的持久卷。我深入挖掘并发现根本没有定义存储类。定义一个存储类后,我尝试删除集群k delete -f manifest.yaml
,但一切都卡在终止状态。
问题线索
kubeflow 部署中悬挂着多个自定义资源,但我会坚持使用一个命名空间,假设它已修复,我可以用同样的方式修复剩余的资源。
root@k8s-master:/mnt/nfs_dir# k get ns
NAME STATUS AGE
auth Terminating 17h
root@k8s-master:/mnt/nfs_dir# k get profiles.kubeflow.org -n auth
NAME AGE
kubeflow-user-example-com 19h
并描述自定义资源:
root@k8s-master:/mnt/nfs_dir# k describe profiles.kubeflow.org
Name: kubeflow-user-example-com
Namespace:
Labels: <none>
Annotations: <none>
API Version: kubeflow.org/v1
Kind: Profile
Metadata:
Creation Timestamp: 2024-02-13T13:23:31Z
Deletion Grace Period Seconds: 0
Deletion Timestamp: 2024-02-13T14:53:45Z
Finalizers:
profile-finalizer
Generation: 3
Resource Version: 4832771
UID: 6db73d43-6f5c-43d7-9bef-eb2c0ccef775
Spec:
Owner:
Kind: User
Name: [email protected]
Resource Quota Spec:
Events: <none>
kubeflow 存储库这里有参考,但我不知道它是否有问题(我不希望如此)
问题:
如何在不强制删除命名空间和/或自定义资源的情况下正确终止集群?