k8s主节点部署pod启动失败（k8s master节点重启）

原标题：k8s主节点部署pod启动失败（k8s master节点重启）

导读：

k8s启动pod读不到etc/profile1、**挂载问题**：检查Pod的挂载配置，确保/etc/profile所在的文件系统被正确挂载到Pod中。可能需要调整挂载路径或...

k8s启动 Pod读不到etc/profile

1、**挂载问题**：检查 POD的挂载配置，确保/ETC/profile所在的文件系统被正确挂载到pod中。可能需要调整挂载路径或权限设置。 **环境变量设置**：确认Pod的环境变量配置是否正确，某些环境变量可能会影响对/etc/profile的读取。

2、当K8s启动Pod读不到/etc/profile时，可能有以下几种情况及解决办法。 **权限问题**：检查容器内运行的用户对/etc/profile文件是否有足够的读取权限。比如确保运行容器的用户有相应的读权限，若权限不足，可调整文件权限。 **文件不存在**：确认容器镜像中是否包含完整的/etc/profile文件。

3、原因： K8s配置问题：运维在K8s配置中虽然设置了spring.profiles.active=uat命令行参数，但该参数可能未正确传递到Spring Boot应用中，导致profiles未生效。环境变量缺失：在Docker容器中，缺少必要的环境变量SPRING_PROFILES_ACTIVE=uat，这也是导致profiles不生效的原因之一。

阿里云k8s集群 故障 经历

1、以下为三例阿里云 k8s 集群故障经历：2024 年 11 月 8 日故障：当日 16：30 - 17：30 左右，用阿里云 ecs 搭建的 k8s 集群，因 2 台 32 核 64G 的高配抢占式实例同时释放造成全站故障。16：33 收到阿里云短信通知，这两台服务器将在 5 分钟内释放。

2、Calico 插件不兼容：在阿里云ECS上部署k8s集群时，如果选择了Calico作为容器网络插件，可能会遇到跨节点通讯问题。这是因为阿里云的部分网络环境或配置与Calico插件存在不兼容的情况。网络插件选择的重要性：容器网络插件负责在k8s集群中创建和管理网络，确保容器之间以及容器与外部世界的通信。

3、集群节点规模超过K8S版本的5000个节点限制。一般而言，运维团队会谨慎对待超过此限制的节点规模，以防潜在风险。原地升级方案的回退机制考虑不周，且未经严格测试。这种升级方式在多版本共存时存在较高的风险。技术团队可能存在基于非技术因素的决策压力，导致选择了风险更高的升级策略。

4、创建一个 ubuntu 虚拟机，使用下载的Ubuntu镜像文件进行安装。设置合适的内存和网络配置，确保虚拟机有足够的资源来运行k8s集群。基础配置：SSH 连接：设置SSH连接，以便远程访问和管理虚拟机。关闭防火墙和sWAP：关闭Ubuntu的防火墙，并禁用swap，因为k8s不推荐使用swap。

搭建一个k8s单机版,yaml已经创建好,但pod状态一直处于pend

1、资源不足：原因：如果集群中的资源不足，Pod可能无法被调度到任何节点上，从而处于PEnding状态。解决方法：检查集群的资源使用情况，确保有足够的资源可供Pod使用。可以考虑增加节点或调整Pod的资源请求和限制。调度问题：原因：调度器可能由于某些原因无法找到合适的节点来部署Pod。

2、假设一位机器学习研究人员想要在PyTorch环境中使用基于python的GPU进行测试，她请求她的工程团队提供一个带有两个GPU的Jupyter笔记本，以及她所有的库。然而，工程团队告诉她这需要三天时间，包括获取GPU、创建堆栈以及授予对JupyterHub的访问权限。

3、针对k8s 10版本中coredns一直处于pending状态的问题，本文提供了一系列解决方案。首先，需要注意的是，当使用kubeadm init后，关闭cni可以解决部分问题。在进行kubeadm init操作前，应该在其他节点上也执行此操作，确保整个系统的一致性。对于kube-flannel.yml文件的修改，是一种推荐的解决方案。

k8s中Pod状态及问题排查方法

1、含义：调度器未能将 Pod 调度到可用节点。可能原因：节点资源不足或 Pod 依赖的资源未准备好。排查方法：检查节点资源使用情况及资源预留情况，确保集群有足够的 CPU 和其他资源。CrashLoopBackoff 状态：含义：容器在启动后立即崩溃或退出。可能原因：容器配置错误、应用程序错误、内存不足或权限问题。

2、解决方法：仔细检查Pod的YAML配置文件，确保语法正确且配置合理。可以使用kubectl describe pod 命令查看Pod的详细信息，以获取更多关于错误的信息。总结：Pod状态一直处于Pending通常是由于资源不足、调度问题、镜像拉取问题、权限问题或配置错误等原因导致的。

3、内存和cpu超标：Pod中的应用出现内存泄露等问题，导致内存迅速增加，可能被系统kill，影响节点正常提供服务。解决办法是进行压测，确定应用所需的内存和CPU资源，并在Pod配置中进行资源限制。网络问题：检查Calico等网络插件的状态，确保网络通信正常。存储问题：Pod挂载的共享存储连接不上可能导致Pod启动异常。

4、检查节点状态：使用kubectl get nodes命令查看集群中所有节点的状态。如果节点有问题（如处于“NotReady”状态），DaemonSet可能无法在该节点上调度Pod。此时，需要解决节点的问题，使其恢复为“Ready”状态。

标签：节点集群问题