标签 istio 下的文章

7 个常见的 Kubernetes 陷阱(以及我是如何学会避免它们的)

本文永久链接 – https://tonybai.com/2025/10/22/seven-kubernetes-pitfalls

大家好,我是Tony Bai。

本文翻译自Kubernetes官方博客《7 Common Kubernetes Pitfalls (and How I Learned to Avoid Them)》一文。

这篇文章的作者Abdelkoddous Lhajouji 以第一人称视角,系统性地梳理了从资源管理、健康检查到安全配置等多个方面,新手乃至资深工程师都极易忽视的关键点。文中的每个“陷阱”都源于真实的生产经验,其规避建议更是极具实践指导意义。无论你是 K8s 初学者还是经验丰富的 SRE,相信都能从中获得启发,审视并改善自己的日常实践。

以下是译文全文,供大家参考。


Kubernetes 有时既强大又令人沮丧,这已经不是什么秘密了。当我刚开始涉足容器编排时,我犯的错误足以整理出一整份陷阱清单。在这篇文章中,我想详细介绍我遇到(或看到别人遇到)的七个大坑,并分享一些如何避免它们的技巧。无论你是刚开始接触 Kubernetes,还是已经在管理生产集群,我都希望这些见解能帮助你避开一些额外的压力。

忽略资源请求(requests)和限制(limits)

陷阱:在 Pod 规范中不指定 CPU 和内存需求。这通常是因为 Kubernetes 并不强制要求这些字段,而且工作负载通常可以在没有它们的情况下启动和运行——这使得在早期配置或快速部署周期中很容易忽略这个疏漏。

背景:在 Kubernetes 中,资源请求和限制对于高效的集群管理至关重要。资源请求确保调度器为每个 Pod 预留适当数量的 CPU 和内存,保证其拥有运行所需的必要资源。资源限制则为 Pod 可以使用的 CPU 和内存设置了上限,防止任何单个 Pod 消耗过多资源,从而可能导致其他 Pod 资源匮乏。当未设置资源请求和限制时:

  1. 资源匮乏:Pod 可能会获得不足的资源,导致性能下降或失败。这是因为 Kubernetes 会根据这些请求来调度 Pod。如果没有它们,调度器可能会在单个节点上放置过多的 Pod,从而导致资源争用和性能瓶颈。
  2. 资源囤积:相反,如果没有限制,一个 Pod 可能会消耗超过其应有份额的资源,影响同一节点上其他 Pod 的性能和稳定性。这可能导致其他 Pod 因内存不足而被驱逐或被内存溢出(OOM)杀手终止等问题。

如何避免

  • 从适度的 requests 开始(例如 100m CPU,128Mi 内存),然后观察你的应用表现如何。
  • 监控实际使用情况并优化你的设置;HorizontalPodAutoscaler 可以帮助根据指标自动进行扩缩容。
  • 留意 kubectl top pods 或你的日志/监控工具,以确认你没有过度或不足地配置资源。

我的惨痛教训:早期,我从未考虑过内存限制。在我的本地集群上,一切似乎都很好。然后,在一个更大的环境中,Pod 们接二连三地被 OOMKilled。教训惨痛。有关为你的容器配置资源请求和限制的详细说明,请参阅官方 Kubernetes 文档的为容器和 Pod 分配内存资源

低估存活探针(liveness)和就绪探针(readiness)

陷阱:部署容器时不明确定义 Kubernetes 应如何检查其健康或就绪状态。这往往是因为只要容器内的进程没有退出,Kubernetes 就会认为该容器处于“运行中”状态。在没有额外信号的情况下,Kubernetes 会假设工作负载正在正常运行——即使内部的应用程序没有响应、正在初始化或卡住了。

背景
存活、就绪和启动探针是 Kubernetes 用来监控容器健康和可用性的机制。

  • 存活探针 决定应用程序是否仍然存活。如果存活检查失败,容器将被重启。
  • 就绪探针 控制容器是否准备好为流量提供服务。在就绪探针通过之前,该容器会从 Service 的端点中移除。
  • 启动探针 帮助区分长时间的启动过程和实际的故障。

如何避免

  • 添加一个简单的 HTTP livenessProbe 来检查一个健康端点(例如 /healthz),以便 Kubernetes 可以重启卡住的容器。
  • 使用一个 readinessProbe 来确保流量在你的应用预热完成前不会到达它。
  • 保持探针简单。过于复杂的检查可能会产生误报和不必要的重启。

我的惨痛教训:我曾有一次忘记为一个需要一些时间来加载的 Web 服务设置就绪探针。用户过早地访问了它,遇到了奇怪的超时,而我花了几个小时挠头苦思。一个 3 行的就绪探针本可以拯救那一天。

有关为容器配置存活、就绪和启动探针的全面说明,请参阅官方 Kubernetes 文档中的配置存活、就绪和启动探针

“我们就看看容器日志好了”(著名遗言)

陷阱:仅仅依赖通过 kubectl logs 获取的容器日志。这通常是因为该命令快速方便,并且在许多设置中,日志在开发或早期故障排查期间似乎是可访问的。然而,kubectl logs 仅检索当前运行或最近终止的容器的日志,而这些日志存储在节点的本地磁盘上。一旦容器被删除、驱逐或节点重新启动,日志文件可能会被轮替掉或永久丢失。

如何避免

  • 使用 CNCF 工具如 FluentdFluent Bit集中化日志,聚合所有 Pod 的输出。
  • 采用 OpenTelemetry 以获得日志、指标和(如果需要)追踪的统一视图。这使你能够发现基础设施事件与应用级行为之间的关联。
  • 将日志与 Prometheus 指标配对,以跟踪集群级别的数据以及应用程序日志。如果你需要分布式追踪,可以考虑 CNCF 项目如 Jaeger

我的惨痛教训:第一次因为一次快速重启而丢失 Pod 日志时,我才意识到 kubectl logs 本身是多么不可靠。从那时起,我为每个集群都设置了一个合适的管道,以避免丢失重要线索。

将开发和生产环境完全等同对待

陷阱:在开发、预发布和生产环境中使用完全相同的设置部署相同的 Kubernetes 清单(manifests)。这通常发生在团队追求一致性和重用时,但忽略了特定于环境的因素——如流量模式、资源可用性、扩缩容需求或访问控制——可能会有显著不同。如果不进行定制,为一个环境优化的配置可能会在另一个环境中导致不稳定、性能不佳或安全漏洞。

如何避免

  • 使用overlays环境 或 kustomize 来维护一个共享的基础配置,同时为每个环境定制资源请求、副本数或配置。
  • 将特定于环境的配置提取到 ConfigMaps 和/或 Secrets 中。你可以使用专门的工具,如 Sealed Secrets 来管理机密数据。
  • 为生产环境的规模做好规划。你的开发集群可能用最少的 CPU/内存就能应付,但生产环境可能需要多得多。

我的惨痛教训:有一次,我为了“测试”,在一个小小的开发环境中将 replicaCount 从 2 扩展到 10。我立刻耗尽了资源,并花了半天时间清理残局。哎。

让旧东西到处漂浮

陷阱:让未使用的或过时的资源——如 Deployments、Services、ConfigMaps 或 PersistentVolumeClaims——在集群中持续运行。这通常是因为 Kubernetes 不会自动移除资源,除非得到明确指示,而且没有内置机制来跟踪所有权或过期时间。随着时间的推移,这些被遗忘的对象会累积起来,消耗集群资源,增加云成本,并造成操作上的混乱,尤其是当过时的 Services 或 LoadBalancers 仍在继续路由流量时。

如何避免

  • 所有东西打上标签,附上用途或所有者标签。这样,你就可以轻松查询不再需要的资源。
  • 定期审计你的集群:运行 kubectl get all -n 来查看实际在运行什么,并确认它们都是合法的。
  • 采用 Kubernetes 的垃圾回收K8s 文档展示了如何自动移除依赖对象。
  • 利用策略自动化:像 Kyverno 这样的工具可以在一定时期后自动删除或阻止过时的资源,或强制执行生命周期策略,这样你就不必记住每一个清理步骤。

我的惨痛教训:一次hackathon之后,我忘记拆除一个关联到外部负载均衡器的“test-svc”。三周后,我才意识到我一直在为那个负载均衡器付费。捂脸。

过早地深入研究网络

陷阱:在完全理解 Kubernetes 的原生网络原语之前,就引入了高级的网络解决方案——如服务网格(service meshes)、自定义 CNI 插件或多集群通信。这通常发生在团队使用外部工具实现流量路由、可观测性或 mTLS 等功能,而没有首先掌握核心 Kubernetes 网络的工作原理时:包括 Pod 到 Pod 的通信、ClusterIP Services、DNS 解析和基本的 ingress 流量处理。结果,与网络相关的问题变得更难排查,尤其是当overlays网络引入了额外的抽象和故障点时。

如何避免

  • 从小处着手:一个 Deployment、一个 Service 和一个基本的 ingress 控制器,例如基于 NGINX 的控制器(如 Ingress-NGINX)。
  • 确保你理解集群内的流量如何流动、服务发现如何工作以及 DNS 是如何配置的。
  • 只有在你真正需要时,才转向功能完备的网格或高级 CNI 功能,复杂的网络会增加开销。

我的惨痛教训:我曾在一个小型的内部应用上尝试过 Istio,结果花在调试 Istio 本身的时间比调试实际应用还多。最终,我退后一步,移除了 Istio,一切都正常工作了。

对安全和 RBAC 太掉以轻心

陷阱:使用不安全的配置部署工作负载,例如以 root 用户身份运行容器、使用 latest 镜像标签、禁用安全上下文(security contexts),或分配过于宽泛的 RBAC 角色(如 cluster-admin)。这些做法之所以持续存在,是因为 Kubernetes 开箱即用时并不强制执行严格的安全默认设置,而且该平台的设计初衷是灵活而非固执己见。在没有明确的安全策略的情况下,集群可能会持续暴露于容器逃逸、未经授权的权限提升或因未固定的镜像导致的意外生产变更等风险中。

如何避免

  • 使用 RBAC 来定义 Kubernetes 内部的角色和权限。虽然 RBAC 是默认且最广泛支持的授权机制,但 Kubernetes 也允许使用替代的授权方。对于更高级或外部的策略需求,可以考虑像 OPA Gatekeeper(基于 Rego)、Kyverno 或使用 CEL 或 Cedar 等策略语言的自定义 webhook 等解决方案。
  • 将镜像固定到特定的版本(不要再用 :latest!)。这能帮助你确切地知道实际部署的是什么。
  • 研究一下 Pod 安全准入(或其他解决方案,如 Kyverno),以强制执行非 root 容器、只读文件系统等。

我的惨痛教训:我从未遇到过重大的安全漏洞,但我听过足够多的警示故事。如果你不把事情收紧,出问题只是时间问题。

小结:最后的想法

Kubernetes 很神奇,但它不会读心术,如果你不告诉它你需要什么,它不会神奇地做出正确的事。通过牢记这些陷阱,你将避免大量的头痛和时间浪费。错误会发生(相信我,我犯过不少),但每一次都是一个机会,让你更深入地了解 Kubernetes 在底层是如何真正工作的。如果你有兴趣深入研究,官方文档社区 Slack 是绝佳的下一步。当然,也欢迎分享你自己的恐怖故事或成功技巧,因为归根结底,我们都在这场云原生的冒险中并肩作战。

祝你交付愉快!


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


想系统学习Go,构建扎实的知识体系?

我的新书《Go语言第一课》是你的首选。源自2.4万人好评的极客时间专栏,内容全面升级,同步至Go 1.24。首发期有专属五折优惠,不到40元即可入手,扫码即可拥有这本300页的Go语言入门宝典,即刻开启你的Go语言高效学习之旅!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

Go应用的K8s“最佳拍档”:何时以及如何用好多容器Pod模式

本文永久链接 – https://tonybai.com/2025/04/24/multiple-containers-pod-pattern

大家好,我是Tony Bai。

将Go应用部署到Kubernetes已经是许多团队的标配。在这个强大的容器编排平台上,除了运行我们的核心Go服务容器,Kubernetes还提供了一种灵活的设计模式——多容器Pod。通过在同一个Pod内运行多个容器,我们可以实现诸如初始化、功能扩展、适配转换等多种辅助功能,其中最知名的就是Sidecar模式。

这些“辅助容器”就像我们Go应用的“最佳拍档”,在某些场景下能发挥奇效。然而,正如 Kubernetes官方文档和社区讨论一直强调的那样,引入额外的容器并非没有成本。每一个额外的容器都会增加复杂度、资源消耗和潜在的运维开销。

因此,关键在于策略性地使用这些模式。我们不应将其视为默认选项,而应是解决特定架构挑战的精密工具。今天,我们就来聊聊Kubernetes中几种合理且常用的多容器Pod模式,探讨何时应该为我们的Go应用引入这些“拍档”,以及如何更好地利用Kubernetes v1.33中已正式稳定(GA)的原生Sidecar支持来实现它们。


图K8s v1.33发布

首先:警惕复杂性!优先考虑更简单的替代方案

在深入探讨具体模式之前,务必牢记一个核心原则:非必要,勿增实体

对于Go这种拥有强大标准库和丰富生态的语言来说,许多常见的横切关注点(如日志记录、指标收集、配置加载、基本的HTTP客户端逻辑等)往往可以通过引入高质量的Go库在应用内部更轻量、更高效地解决。

只有当以下情况出现时,才应认真考虑引入多容器模式:

  • 需要扩展或修改无法触碰源代码的应用(如第三方应用或遗留系统)。
  • 需要将与语言无关的通用功能(如网络代理、安全策略)从主应用中解耦出来。
  • 需要独立于主应用进行更新或扩展的辅助功能。
  • 特定的初始化或适配需求无法在应用内部优雅处理。

切忌为了“看起来很酷”或“遵循某种时髦架构”而盲目添加容器。

下面我们看看常见的一些多容器模式以及对应的应用场景。

四种推荐的多容器模式及其Go应用场景

Kubernetes生态中已经沉淀出了几种非常实用且目标明确的多容器模式,我们逐一来看一下。

Init Container (初始化容器)

Init Container是K8s最早支持的一种“sidecar”(那时候还不这么叫),它一般用在主应用容器启动之前,执行一次性的关键设置任务。它会运行至完成然后终止。

它常用于以下场景:

  • 运行数据库Schema迁移。
  • 预加载配置或密钥。
  • 检查依赖服务就绪。
  • 准备共享数据卷。

下面是官方的一个init containers的示例:

apiVersion: v1
kind: Pod
metadata:
  name: myapp-pod
  labels:
    app.kubernetes.io/name: MyApp
spec:
  containers:
  - name: myapp-container
    image: busybox:1.28
    command: ['sh', '-c', 'echo The app is running! && sleep 3600']
  initContainers:
  - name: init-myservice
    image: busybox:1.28
    command: ['sh', '-c', "until nslookup myservice.$(cat /var/run/secrets/kubernetes.io/serviceaccount/namespace).svc.cluster.local; do echo waiting for myservice; sleep 2; done"]
  - name: init-mydb
    image: busybox:1.28
    command: ['sh', '-c', "until nslookup mydb.$(cat /var/run/secrets/kubernetes.io/serviceaccount/namespace).svc.cluster.local; do echo waiting for mydb; sleep 2; done"]

此示例定义了一个包含两个init容器的简单Pod。第一个init容器(init-myservice)等待myservice运行,第二个init容器(init-mydb)等待mydb运行。两个init容器完成后,Pod将从其spec部分运行app容器(myapp-container)。

Ambassador (大使容器)

Ambassador Container主要是用于扮演主应用容器的“网络大使”,简化其与外部服务的交互,它常用在下面一些场景里:

  • 服务发现与负载均衡代理。
  • 请求重试与熔断。
  • 身份验证与授权代理。
  • mTLS 加密通信。

Ambassador通常作为Pod内的一个长期运行的容器。如果需要确保它在主应用之后停止(例如处理完最后的请求转发),Kubernetes原生Sidecar是实现Ambassador容器的理想选择。

Configuration Helper (配置助手)

配置助手也是一种最常使用的辅助容器模式,它主要用于动态地为正在运行的主应用提供或更新配置,比如监控ConfigMap/Secret变化并热加载、从配置中心拉取配置等。

它通常也是一个长期运行的容器。由于可能需要在主应用启动前提供初始配置,并在主应用停止后同步最后状态,使用原生Sidecar提供的精确生命周期管理非常有价值,可以使用Sidecar实现这种模式的容器。

Adapter (适配器容器)

Adapter容器负责在主应用和外部世界之间进行数据格式、协议或API的转换,常用于下面一些场景:

  • 统一监控指标格式。
  • 协议转换(如 gRPC 转 REST)。
  • 标准化日志输出。
  • 兼容遗留系统接口。

我们可以根据是否需要精确的生命周期协调来选择普通容器或原生Sidecar来实现这类长期运行的适配器容器。

可见,K8s原生的Sidecar是实现上述四种辅助容器的可靠实现,下面来简单介绍一下K8s原生Sidecar。

K8s原生Sidecar:可靠实现辅助容器的关键

现在,我们重点关注Kubernetes v1.33中正式稳定(GA)的原生Sidecar 功能。

它是如何实现的呢?

官方推荐的方式是:在Pod的spec.initContainers数组中定义你的Sidecar容器,并显式地将其restartPolicy设置为Always。下面是一个示例:

spec:
  initContainers:
    - name: my-sidecar # 例如日志收集或网络代理
      image: my-sidecar-image:latest
      restartPolicy: Always # <--- 关键:标记为原生Sidecar
      # ... 其他配置 ...
  containers:
    - name: my-go-app
      image: my-golang-app:latest
      # ...

虽然将长期运行的容器放在initContainers里初看起来可能有些“反直觉”,但这正是Kubernetes团队为了复用Init Container已有的启动顺序保证,并赋予其特殊生命周期管理能力而精心设计的稳定机制。

原生Sidecar具有如下的核心优势:

  • 可靠的启动行为: 所有非Sidecar的 Init Containers (restartPolicy 不是 Always) 会按顺序执行且必须成功完成。随后,主应用容器 (spec.containers) 和所有原生 Sidecar 并发启动。
  • 优雅的关闭顺序保证:这是最大的改进!当 Pod 终止时,主应用容器先收到SIGTERM 并等待其完全停止(或超时),然后Sidecar容器才会收到 SIGTERM 开始关闭。
  • 与Job 的良好协作: 对于设置了 restartPolicy: OnFailure或Never的Job,原生Sidecar不会因为自身持续运行而阻止Job的成功完成。

这对我们的Go应用意味着什么?

当你的Go应用确实需要一个长期运行的辅助容器,并且需要精确的生命周期协调时,原生Sidecar提供了实实在在的好处:

  • 服务网格代理 (Ambassador 变种): Envoy, Linkerd proxy 等可以确保在 Go 应用处理完最后请求后才关闭,极大提升可靠性。
  • 日志/监控收集 (Adapter/Helper 变种): Fluentd, Vector, OTel Collector 等可以确保捕获到 Go 应用停止前的最后状态信息。
  • 需要与主应用生命周期紧密配合的其他辅助服务: 任何需要在主应用运行期间持续提供服务,并在主应用结束后才停止的场景。

因此,原生Sidecar不是一个全新的模式,而是当我们需要实现上述这些需要精确生命周期管理的Sidecar模式时,Kubernetes v1.33 提供的稳定、可靠且官方推荐的实现方式。

小结

Kubernetes的多容器Pod模式为我们提供了强大的工具箱,但也伴随着额外的复杂性。对于Go开发者而言:

  • 始终将简单性放在首位: 优先考虑使用 Go 语言自身的库和能力来解决问题。
  • 审慎评估必要性: 只有当明确的应用场景(如 Init, Ambassador, Config Helper, Adapter)带来的好处大于其引入的复杂度和资源开销时,才考虑使用多容器模式。
  • 理解模式目的: 清晰地知道你引入的每个辅助容器是为了解决什么特定问题。
  • 拥抱原生 Sidecar (GA): 当你确定需要一个长期运行且需要可靠生命周期管理的辅助容器时,利用 Kubernetes v1.33 及以后版本中稳定提供的原生 Sidecar 支持,是提升部署健壮性的最佳实践。

多容器 Pod 是 Kubernetes 生态中的“精密武器”,理解何时拔剑、如何出鞘,并善用平台提供的稳定特性,才能真正发挥其威力,为我们的 Go 应用保驾护航。

你通常在什么场景下为你的 Go 应用添加辅助容器?你对 K8s 原生 Sidecar 功能的稳定有何看法?欢迎在评论区分享你的实践经验和见解! 如果觉得这篇文章对你有启发,也请不吝点个【赞】和【在看】!

参考资料


拓展阅读与实践:抓住 K8s 学习与星球优惠的最后机会!

聊完K8s的多容器Pod模式,想不想更系统地掌握K8s核心原理与实践?

我正打算将多年前深受好评的慕课网Kubernetes实战课(https://coding.imooc.com/class/284.html)内容(覆盖集群探索、网络、安全、存储、诊断、Operator等核心知识点)进行精选和更新,并逐步放入我的知识星球「Go & AI 精进营」【Kubernetes进阶】 专栏。这对于理解K8s底层、打好云原生基础价值依旧。


当初的课程核心内容(后会有调整)

特别提醒: 「Go & AI 精进营」将于5月1日起涨价至 388 元/年!现在是涨价前的最后一周,以当前价格加入,即可锁定未来一年的高质量Go 进阶、AI 应用实战以及这个即将更新的 K8s 实战专栏!

如果你想深入K8s原理,并抓住星球涨价前的最后优惠窗口,现在就加入我们吧!

img{512x368}


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 AI原生开发工作流实战 Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats