Published at 2020-11-04 | Last Update 2020-11-04
This post also provides an English version.
本文是我们的前一篇博客 Trip.com: First Step towards Cloud Native Networking 的后续,介绍自上一篇博客以来我们在基于 Cilium 的云原生网络和云原生安全方面的一些 探索和实践。
从 2013 到 2018 年,我们经历了物理机到虚拟机再到容器的基础设施演进,但网络技 术栈基本都是沿用 Neutron+OVS —— 即使对我们(前期)的 Kubernetes 集群也是 如此。但业务开始往 Kubernetes 迁移之后,这套 Neutron+OVS 的网络方案越来越捉襟见肘, 尤其是在部署密度更高、规模更大的容器面前,这种大二层网络模型的软件和硬件瓶颈暴露无遗 [1]。
为了解决这些问题,更重要地,为了满足云原生业务的各种需求(例如,支持Kubernetes 的 Service 模型),我们调研了很多较新的网络方案,综合评估之后,选择了 Cilium+BGP 的组合 [3]。
Fig 1-1. Networking solutions over the past years [2]
Cilium+BGP 方案 2019 年底正式在我们生产环境落地,我们打通了 Cilium 网络和现有网 络,因此能灰度将容器从 Neutron 迁移到 Cilium。
作为 Cilium 的早起用户之一,我们对 Cilium 的实现和部署做了一些修改或定制化,以使 这套方案能平滑地落地到我们现有的基础设施之中,例如 [2],
用 docker-compsoe + salt
来部署,而不是采用默认的 daemonset+configmap
方式。
这样每台 node 上的 cilium-agent 都有独立配置,我们能完全控制发布灰度,将 变更风险降到最低。
用 BIRD
作为 BGP agent,而不是采用默认的 kube-router
。
kube-router
开箱即用,但缺少对 ECMP、BFD 等高级功能的支持,不符合我们生产环境的要求。
为了保证某些业务的平滑迁移,我们开发了 StatefulSet/AdvancedStatefulSet 固定 IP 的支持(需要 sticky 调度配合)。
定制化了监控和告警。
其他一些自定义配置。
我们之前的一篇文章 [2] 对此有较详细的介绍,有兴趣可以移步。 下面讨论几个之前介绍较少或者没有覆盖到的主题。
Cilium+BIRD 方案中,以宿主机为界,网络可以大致分为两部分,如图 2-1 所示,
Fig 2-1. High level topology of the Cilium+BGP solution [2]
对于跨宿主机部分,需要确定要采用哪种 BGP peering 模型,这个模型解决的问题包括 :
取决于具体的网络需求,这套 BGP 方案可能很复杂。基于我们数据中心网络能提供的能力 及实际的需求,我们采用的是一种相对比较简单的模型,
/25
或 /24
的 PodCIDR。/25
或 /24
路由宣告,但不向 node 宣告任何路由。这种模型的简单之处在于,
Fig 2-2. BGP peering model in 3-tier network topology
在路由协议方面,
我们已经将这方面的实践整理成文档,见 Using BIRD to run BGP [3]。
来看一下在这套方案中,典型的流量转发路径。
假设从一个 Pod 内访问某个 Service,这个 Service 的后端位于另一台 Node,如下图所示,
Fig 2-3. Traffic path: accessing Service from a Pod [4]
主要步骤:
curl <ServiceIP>:<port>
)。我们有一篇专门的文章详细介绍整个过程,见 [4]。
在 Kubernetes 的设计中,ServiceIP 只能在集群内访问,如果要从集群外访问 Service 怎么办?例如,从 baremetal 集群、OpenStack 集群,或者其他 Kubernetes 集群访问?这属于集群边界问题。
K8s 为这些场景提供了两种模型:
但是,K8s 只提供了模型,没提供实现,具体的实现是留给各厂商的。例如,假如你使 用的是 AWS,它提供的 ALB 和 ELB 就分别对应上面的 L7 和 L4 模型。在私有云,就需要 我们自己解决。
我们基于 Cilium+BGP+ECMP 设计了一套四层入口方案。本质上这是一套四层负载均衡器( L4LB),它提供一组 VIP,可以将这些 VIP 配置到 externalIPs 类型或 LoadBalancer 类 型的 Service,然后就可以从集群外访问了。
Fig 2-4. L4LB solution with Cilium+BGP+ECMP [5]
基于这套四层入口方案部署 istio ingress-gateway,就解决了七层入口问题。从集群外访 问时,典型的数据转发路由如下:
Fig 2-5. Traffic path when accesing Service from outside the Kubernetes cluster [5]
我们之前有篇博客详细介绍这个主题,见 [5]。
Cilium 提供的两大核心能力:
在落地了网络功能后,针对安全需求,我们在尝试落地基于 Cilium 的安全。
首先来看一个简单的例子,看看 CiliumNetworkPolicy (CNP) 长什么样 [6]:
apiVersion: "cilium.io/v2"
kind: CiliumNetworkPolicy
metadata:
name: "clustermesh-ingress-l4-policy"
description: "demo: allow only employee to access protected-db"
spec:
endpointSelector:
matchLabels:
app: protected-db
ingress:
- toPorts:
- ports:
- port: "6379"
protocol: TCP
fromEndpoints:
- matchLabels:
app: employee
上面的 yaml:
name
和 description
等描述字段。app=protected-db
标签(labels)的 endpoints(pods)执行这个 CNP。ingress
)流量做控制,并且限制如下流量来源:
TCP
,并且端口是 6379
.app:employee
labels 的 endpoints(pods)。可以看到,CNP 非常灵活,使用起来也很方便。但真实世界要远比想象中复杂,要真正落地 Cilium 安全策略,还存在很多挑战。
下面举两个例子,相信这些问题在很多公司都需要面对,并不是我们独有的。
如果你所有的应用都运行在 Cilium 集群中,并且客户端和服务端都收敛到一个集群(大部 分公有云厂商都推荐一个 region 只部署一套 K8s 集群,所有访问都收敛到这套集群),那落 地起来会简单很多。
但大部分有基础设施演进的公司恐怕都不满足这个假设,实际的情况很可能是:业务分散在多 个集群。
多集群还不是最大的问题,因为业界多少还有一些多集群解决方案。
更严重的一个问题是:业务不仅分散在不同集群,而且在不同平台。例如对我们来说,现在 有:
虽然我们计划将所有容器从 Neutron 网络迁移到 Cilium 网络,但另外两种,bare metal 和 OpenStack 集群,还是会长期存在的,虽然规模可能会逐渐减小。
我们目前的一个整体方案:在服务端容器做入向安全策略,客户端可以来自任何平台、任何集群:
那接下来的问题就是:服务端如何具备对所有类型、所有集群的客户端进行限制的能力? 我们的解决方案是:
下面分别解释这两点。
Fig 3-1. Vanilla Cilium ClusterMesh [6]
ClusterMesh [7] 是 Cilium 自带的一个多集群解决方案。如果所有应用都在 Cilium 集群 里,那这种方式可以解决跨集群的安全策略问题,即,application 实例可以分布在不同的集群。
这样说来,使用 ClusterMesh 似乎是理所当然的,但其实它并不是我们当初的第一选择。 因为多集群还有其他方案,本质上做的事情就是如何在多个集群之间同步元数据,并且做到 集群变动的实时感知。
但后来综合对比了几种选项之后,觉得 ClusterMesh 还是值得尝试的。
关于 ClusterMesh 的实地(功能)测试,可以参考我们之前的一篇博客 [6]。
这里的外部实例(external endpoints)包括 Neutron Pod、VM、BM。
基于对 Cilium 的理解,我们判断只要将外部实例信息以 Cilium 能感知的方式(格式)同 步到 Cilium 集群,那在入向(inbound),Cilium 对这些实例的控制能力,与对原生 Cilium 实例的控制能力并无区别。换句话说,我们“骗一下” Cilium,让它认为这些实例都是 Cilium endpoints/pods。
为此我们开发了一个组件,使得 OpenStack 平台、Bare metal 平台和Neutron-powered Kubernetes 平台能将它们的实例创建/销毁/更新信息同步更新到 Cilium 集群,如下图所示:
Fig 3-2. Proposed security solution over hybrid infrastructures
结合 3.3.1 & 3.3.2,在这套“扩展之后的” ClusterMesh 中,每个 Cilium agent 都对 全局实例(container/vm/bm)有着完整的、一致的视图,因此能在 Cilium Pod 的入向 对各种类型的客户端做安全控制。目前计划支持的是 L3-L4 安全策略,未来考虑支持 L7。
这套方案已经通过了功能验证,正在进行正式开发和测试,计划年底开始灰度上线。
本文总结了我们自上一篇博客以来,在基于 Cilium 的云原生网络和云原生安全方面的一些 探索和实践。更多技术细节,可参考下面一些链接。