同步近期 containerd 的高频问题

August 13, 2023

最近 Issue 8698 有用户说容器启动和清理都偏慢，尤其多个 Pod 同时启动时现象特别明显。之前有过类似的问题: containerd 启动容器前，它需要临时挂载 rootfs 来读取 uid/gid 信息。因为挂载的是可写属性的 overlayfs，卸载时内核会强制刷盘。当系统大量的脏页数据需要回写时，这个刷盘动作容易造成系统卡顿。 oci: use readonly mount to read user/group info 已经解决读取 uid/gid 的性能问题了，但这一次是 Pod Init-container 带来的。

Init-container rootfs 大部分都是可写模式的 overlayfs，如果 Init-container 是做数据预下载的话，那么 containerd 在删除 Init-container 时，内核一定会刷盘。在大部分场景下，同一个节点上的 Pod 共享同一块数据盘，这种不预期的刷盘很容易把系统打崩。还有 Issue 8647 用户说，他的系统一开始还好好的，跑几天就不稳定了。后来查看他提供的日志，发现有几个 Pod 一直启动失败，相当于每隔几秒都要去刷盘，导致整个系统不稳定。

这个问题的最佳解决方案应该是做好 Pod 的存储隔离，但显然这成本确要高不少。然而 Kubernetes 场景下的容器并不会重启，即使在「失败后无限重启」的策略下，kubelet 依然是删除重建，这也意味着容器 rootfs 并不需要持久化。个人觉得，成本最低的解决方案应该是使用 overlayfs-volatile-mount，它需要 Linux Kernel ≥ 5.10。以下是个人目前了解到的情况，大部分云厂家都支持了 overlayfs-volatile。

Azure Ubuntu 22.04 LTS - Kernel 5.15 (GA)
AWS Kubernetes ≥ 1.24 使用 Kernel 5.10
阿里云 Alibaba Cloud Linux 2 使用 Kernel 4.19，但它支持 volatile
Google 支持的发行版比较多，包含了 Ubuntu 22.04 TLS - Kernel 5.15
华为云 Huawei Cloud EulerOS 2.0 使用 Kernel 5.10

除此之外，还有 Issue 7496 Issue 8931 用户报告说 umount 刷盘耗时太长导致 containerd-shim 泄露。其实这个问题的根因并不在于 umount，而是 containerd 清理 shim 的流程忽略了一些关键错误，导致上层调用者 (比如 CRI 插件) 没有重试机会，进而出现了 shim 泄露问题。PR 8954 仅修复 umount 超时带来的泄露，但可能会出现因 shim.Shutdown 超时带来的泄露。要完全修复 shim 泄露问题，containerd 应该让上层调用者发起删除，而不是通过异步来做清理。这里涉及到 containerd event 的可靠性以及上游 moby/moby 使用的调整，估计要讨论上一段时间，所以 PR 8954 也仅是降低泄露风险。

如果有遇到该问题的朋友，可以关注下 Cherry-pick: [overlay] add configurable mount options to overlay snapshotter ，尽量使用 volatile 来避免刷盘带来的影响。

containerd v1.7 系列文章的最后一篇被我鸽了，考虑到最近华为云提议的 Sandbox: make sandbox controller plugin 特性还在讨论阶段，等到 v2.0 在补一篇好了。下次一定！