本文简单总结关于使用 Kubectl 进行 Kubernetes 诊断的指南。列出了 100 个 Kubectl 命令,这些命令对于诊断 Kubernetes 集群中的问题非常有用。这些问题包括但不限于:
集群信息
Pod 诊断
服务诊断
部署诊断
网络诊断
持久卷和持久卷声明诊断
资源使用情况
安全和授权
节点故障排除
其他诊断命令:文章还提到了许多其他命令,如资源扩展和自动扩展、作业和定时作业诊断、Pod 亲和性和反亲和性规则、RBAC 和安全、服务账号诊断、节点排空和取消排空、资源清理等。
显示 Kubernetes 版本:
kubectl version
显示集群信息:
kubectl cluster-info
列出集群中的所有节点:
kubectl get nodes
查看一个具体的节点详情:
kubectl describe node <node-name>
列出所有命名空间:
kubectl get namespaces
列出所有命名空间中的所有 pod:
kubectl get pods --all-namespaces
列出特定命名空间中的 pod:
kubectl get pods -n <namespace>
查看一个 Pod 详情:
kubectl describe pod <pod-name> -n <namespace>
查看 Pod 日志:
kubectl logs <pod-name> -n <namespace>
尾部 Pod 日志:
kubectl logs -f <pod-name> -n <namespace>
在 pod 中执行命令:
kubectl exec -it <pod-name> -n <namespace> -- <command>
检查 Pod 准备情况:
kubectl get pods <pod-name> -n <namespace> -o jsonpath='{.status.conditions[?(@.type=="Ready")].status}'
检查 Pod 事件:
kubectl get events -n <namespace> --field-selector involvedObject.name=<pod-name>
列出命名空间中的所有服务:
kubectl get svc -n <namespace>
查看一个服务详情:
kubectl describe svc <service-name> -n <namespace>
列出命名空间中的所有Deployment:
kubectl get deployments -n <namespace>
查看一个Deployment详情:
kubectl describe deployment <deployment-name> -n <namespace>
查看滚动发布状态:
kubectl rollout status deployment/<deployment-name> -n <namespace>
查看滚动发布历史记录:
kubectl rollout history deployment/<deployment-name> -n <namespace>
列出命名空间中的所有 StatefulSet:
kubectl get statefulsets -n <namespace>
查看一个 StatefulSet详情:
kubectl describe statefulset <statefulset-name> -n <namespace>
列出命名空间中的 ConfigMap:
kubectl get configmaps -n <namespace>
查看一个ConfigMap详情:
kubectl describe configmap <configmap-name> -n <namespace>
列出命名空间中的 Secret:
kubectl get secrets -n <namespace>
查看一个Secret详情:
kubectl describe secret <secret-name> -n <namespace>
- 查看一个命名空间详情:
kubectl describe namespace <namespace-name>
检查 pod 的资源使用情况:
kubectl top pod <pod-name> -n <namespace>
检查节点资源使用情况:
kubectl top nodes
显示命名空间中 Pod 的 IP 地址:
kubectl get pods -n <namespace> -o custom-columns=POD:metadata.name,IP:status.podIP --no-headers
列出命名空间中的所有网络策略:
kubectl get networkpolicies -n <namespace>
查看一个网络策略详情:
kubectl describe networkpolicy <network-policy-name> -n <namespace>
列出PV:
kubectl get pv
查看一个PV详情:
kubectl describe pv <pv-name>
列出命名空间中的 PVC:
kubectl get pvc -n <namespace>
查看PVC详情:
kubectl describe pvc <pvc-name> -n <namespace>
- 获取特定节点上运行的 Pod 列表:
kubectl get pods --field-selector spec.nodeName=<node-name> -n <namespace>
列出命名空间中的资源配额:
kubectl get resourcequotas -n <namespace>
查看一个资源配额详情:
kubectl describe resourcequota <resource-quota-name> -n <namespace>
列出命名空间中的自定义资源:
kubectl get <custom-resource-name> -n <namespace>
查看自定义资源详情:
kubectl describe <custom-resource-name> <custom-resource-instance-name> -n <namespace>
使用这些命令时,请记住将<namespace>
,?<pod-name>
,?<service-name>
,?<deployment-name>
,?<statefulset-name>
,?<configmap-name>
,?<secret-name>
,?<namespace-name>
,?<pv-name>
,?<pvc-name>
,?<node-name>
,?<network-policy-name>
,?<resource-quota-name>
,?<custom-resource-name>
, 和替换为你的特定值。
<custom-resource-instance-name>
这些命令应该可以帮助你诊断 Kubernetes 集群以及在其中运行的应用程序。
Deployment伸缩:
kubectl scale deployment <deployment-name> --replicas=<replica-count> -n <namespace>
设置Deployment的自动伸缩:
kubectl autoscale deployment <deployment-name> --min=<min-pods> --max=<max-pods> --cpu-percent=<cpu-percent> -n <namespace>
检查水平伸缩器状态:
kubectl get hpa -n <namespace>
列出命名空间中的所有作业:
kubectl get jobs -n <namespace>
查看一份工作详情:
kubectl describe job <job-name> -n <namespace>
列出命名空间中的所有 cron 作业:
kubectl get cronjobs -n <namespace>
查看一个 cron 作业详情:
kubectl describe cronjob <cronjob-name> -n <namespace>
列出按容量排序的持久卷 (PV):
kubectl get pv --sort-by=.spec.capacity.storage
查看PV回收策略:
kubectl get pv <pv-name> -o=jsonpath='{.spec.persistentVolumeReclaimPolicy}'
列出所有存储类别:
kubectl get storageclasses
列出命名空间中的所有Ingress:
kubectl get ingress -n <namespace>
查看一个Ingress详情:
kubectl describe ingress <ingress-name> -n <namespace>
列出命名空间中的所有 VirtualServices (Istio):
kubectl get virtualservices -n <namespace>
查看一个 VirtualService (Istio)详情:
kubectl describe virtualservice <virtualservice-name> -n <namespace>
运行网络诊断 Pod(例如 busybox)进行调试:
kubectl run -it --rm --restart=Never --image=busybox net-debug-pod -- /bin/sh
测试从 Pod 到特定端点的连接:
kubectl exec -it <pod-name> -n <namespace> -- curl <endpoint-url>
跟踪从一个 Pod 到另一个 Pod 的网络路径:
kubectl exec -it <source-pod-name> -n <namespace> -- traceroute <destination-pod-ip>
检查 Pod 的 DNS 解析:
kubectl exec -it <pod-name> -n <namespace> -- nslookup <domain-name>
验证 Kubernetes YAML 文件而不应用它:
kubectl apply --dry-run=client -f <yaml-file>
验证 pod 的安全上下文和功能:
kubectl auth can-i list pods --as=system:serviceaccount:<namespace>:<serviceaccount-name>
列出命名空间中的角色和角色绑定:
kubectl get roles,rolebindings -n <namespace>
查看角色或角色绑定详情:
kubectl describe role <role-name> -n <namespace>
列出命名空间中的服务帐户:
kubectl get serviceaccounts -n <namespace>
查看一个服务帐户详情:
kubectl describe serviceaccount <serviceaccount-name> -n <namespace>
清空节点以进行维护:
kubectl drain <node-name> --ignore-daemonsets
解除对节点的封锁:
kubectl uncordon <node-name>
- 强制删除 pod(不推荐):
kubectl delete pod <pod-name> -n <namespace> --grace-period=0 --force
列出 pod 的 pod 亲和性规则:
kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.affinity}'
列出 pod 的 pod 反亲和性规则:
kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.affinity.podAntiAffinity}'
- 列出所有 Pod 安全策略(如果启用):
kubectl get psp
查看最近的集群事件:
kubectl get events --sort-by=.metadata.creationTimestamp
按特定命名空间过滤事件:
kubectl get events -n <namespace>
检查节点情况:
kubectl describe node <node-name> | grep Conditions -A5
列出节点容量和可分配资源:
kubectl describe node <node-name> | grep -E "Capacity|Allocatable"
- 运行临时调试容器:
kubectl debug -it <pod-name> -n <namespace> --image=<debug-image> -- /bin/sh
- 获取 Pod 的 CPU 和内存使用情况:
kubectl top pod -n <namespace>
- 查看节点上的kubelet日志:
kubectl logs -n kube-system kubelet-<node-name>
- 使用 Telepresence 调试 pod:
telepresence --namespace <namespace> --swap-deployment <pod-name>
列出可用的上下文:
kubectl config get-contexts
切换到不同的上下文:
kubectl config use-context <context-name>
- 列出 PodSecurityPolicy (PSP) 违规行为:
kubectl get psp -A | grep -vE 'NAME|REVIEWED'
列出命名空间中的所有 PDB:
kubectl get pdb -n <namespace>
查看一个PDB详情:
kubectl describe pdb <pdb-name> -n <namespace>
- 列出命名空间中的资源锁:
kubectl get resourcelocks -n <namespace>
列出服务的服务端点:
kubectl get endpoints <service-name> -n <namespace>
检查 Pod 中的 DNS 配置:
kubectl exec -it <pod-name> -n <namespace> -- cat /etc/resolv.conf
- 查询Prometheus指标:用于
kubectl port-forward
访问Prometheus和Grafana服务来查询自定义指标。
- 列出优先级:
kubectl get priorityclasses
- 列出 pod 中的开销:
kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.overhead}'
列出存储卷快照:
kubectl get volumesnapshot -n <namespace>
查看存储卷快照详情:
kubectl describe volumesnapshot <snapshot-name> -n <namespace>
- 反序列化并打印 Kubernetes 资源:
kubectl get <resource-type> <resource-name> -n <namespace> -o=json
- 列出节点污点:
kubectl describe node <node-name> | grep Taints
列出变异 webhook 配置:
kubectl get mutatingwebhookconfigurations
列出验证 Webhook 配置:
kubectl get validatingwebhookconfigurations
- 列出命名空间中的 pod 网络策略:
kubectl get networkpolicies -n <namespace>
- 自定义查询输出:
kubectl get nodes -o custom-columns=NODE:.metadata.name,READY:.status.conditions[?(@.type=="Ready")].status -l 'node-role.kubernetes.io/worker='
- 检索审核日志(如果启用):检查 Kubernetes 审核日志配置以了解审核日志的位置。
- 获取节点的操作系统信息:
kubectl get node <node-name> -o jsonpath='{.status.nodeInfo.osImage}'
这些命令应该涵盖 Kubernetes 中的各种诊断场景。确保将<namespace>
、<pod-name>
、<deployment-name>
等占位符替换为你的集群和用例的实际值。
————————————
DONE