Linux NAT(Network Address Translation)转换是一种网络技术,用于将一个或多个私有网络内的IP地址转换为一个公共的IP地址,以便与互联网通信。
图源于网络
在k8s业务场景中,业务组件之间的关系十分复杂.
由于 Kubernetes 的网络模型假设 Pod 之间访问时使用的是对方 Pod 的实际地址,所以一个 Pod 内部的应用程序看到的自己的IP地址和端口与集群内其他 Pod看到的一样 。它们都是Pod实际分配的IP地址 。将IP地址和端口在Pod内部和外部都保待一致,也就不需要使用 NAT 进行地址转换了。
一些场景如cilium 并没有使用Netfilter的NAT转换。
linux的NAT转换是基于 Netfilter 网络框架实现的。
Netfilter 是 Linux 内核中一个对数据 包进行控制、修改和过滤(manipulation and filtering)的框架。它在内核协议 栈中设置了若干hook 点,以此对数据包进行拦截、过滤或其他处理。Netfilter 是最古老的内核框架之一,1998 年开始开发,2000 年合并到 2.4.x 内 核主线版本 [5]。
图源于网络
Netfilter 官方文档:
https://www.netfilter.org/documentation/index.html
netfilter是Linux内核的包过滤框架,它提供了一系列的钩子(Hook)供其他模块控制包的流动。这些钩子包括:
NF_IP_PRE_ROUTING:刚刚通过数据链路层解包进入网络层的数据包通过此钩子,它在路由之前处理
NF_IP_LOCAL_IN:经过路由查找后,送往本机(目的地址在本地)的包会通过此钩子
NF_IP_FORWARD:不是本地产生的并且目的地不是本地的包(即转发的包)会通过此钩子
NF_IP_LOCAL_OUT:所有本地生成的发往其他机器的包会通过该钩子
NF_IP_POST_ROUTING:在包就要离开本机之前会通过该钩子,它在路由之后处理。
conntrack 是 netfilter一个模块。
NAT是在连接跟踪的基础上实现的,所以conntrack肯定是在NAT之前建立的。
conntrack注册的优先级:
enum nf_ip_hook_priorities {
? NF_IP_PRI_FIRST = INT_MIN,
? NF_IP_PRI_RAW_BEFORE_DEFRAG = -450,
? NF_IP_PRI_CONNTRACK_DEFRAG = -400,
? NF_IP_PRI_RAW = -300,
? NF_IP_PRI_SELINUX_FIRST = -225,
? NF_IP_PRI_CONNTRACK = -200,
? NF_IP_PRI_MANGLE = -150,
? NF_IP_PRI_NAT_DST = -100,
? NF_IP_PRI_FILTER = 0,
? NF_IP_PRI_SECURITY = 50,
? NF_IP_PRI_NAT_SRC = 100,
? NF_IP_PRI_SELINUX_LAST = 225,
? NF_IP_PRI_CONNTRACK_HELPER = 300,
? NF_IP_PRI_CONNTRACK_CONFIRM = INT_MAX,
? NF_IP_PRI_LAST = INT_MAX,
};
我们可以看到,NAT是在连接跟踪的基础上实现的,所以连接跟踪肯定是在NAT之前建立的。在上面的优先级中,优先级越小,越容易被先调用。
使用conntrack 查看当前节点NAT 转换情况
sudo conntrack -L -j
tcp 6 82 SYN_SENT src=172.19.0.2 dst=192.168.101.98 sport=55628 dport=443 [UNREPLIED] src=192.168.101.98 dst=192.168.1.3 sport=443 dport=55628 mark=0 use=1 conntrack v1.4.6 (conntrack-tools): 1 flow entries have been shown.
所以我们使用ebpf hook conntrack 就可以查看当前节点NAT转换情况。
四、使用eBPF hook conntrack
使用ebpf 拦截conntrack,我们主要拦截:
SEC("kprobe/__nf_conntrack_hash_insert") SEC("kprobe/ctnetlink_fill_info")
SEC("kprobe/__nf_conntrack_hash_insert") SEC("kprobe/ctnetlink_fill_info")
实现主流程
hook住 __nf_conntrack_hash_insert:
SEC("kprobe/__nf_conntrack_hash_insert")
int BPF_KPROBE(kprobe___nf_conntrack_hash_insert, struct nf_conn *ct,unsigned int hash, unsigned int reply_hash) {
? ? u32 status = ct_status(ct);
? ? __maybe_unused possible_net_t p_net = BPF_CORE_READ(ct, ct_net);
? ? if (!(status&IPS_CONFIRMED)) {
? ? ? ? log_debug("kprobe/__nf_conntrack_hash_insert include IPS_CONFIRMED: netns: %u, status: %x\n", get_netns(&p_net), status);
? ? ? ? return 0;
? ? }
? ? if (!(status&IPS_NAT_MASK)) {
? ? ? ? return 0;
? ? }
? ? if (!(status&IPS_CONFIRMED) || !(status&IPS_NAT_MASK)) {
? ? ? ? log_debug("kprobe/filter: netns: %u, status: %x\n", get_netns(&p_net), status);
? ? ? ? return 0;
? ? }
? ? conntrack_tuple_t orig = {}, reply = {};
? ? if (nf_conn_to_conntrack_tuples(ct, &orig, &reply) != 0) {
? ? ? ? return 0;
? ? }
? ? bpf_map_update_with_telemetry(conntrack, &orig, &reply, BPF_ANY);
? ? bpf_map_update_with_telemetry(conntrack, &reply, &orig, BPF_ANY);
? ? increment_telemetry_registers_count();
? ? return 0;
}
hook住ctnetlink_fill_info:
SEC("kprobe/ctnetlink_fill_info")
int BPF_KPROBE(kprobe_ctnetlink_fill_info, struct nf_conn *ct) {
? ? proc_t proc = {};
? ? bpf_get_current_comm(&proc.comm, sizeof(proc.comm));
? ? if (!proc_t_comm_prefix_equals("system-probe", 12, proc)) {
? ? ? ? log_debug("skipping kprobe/ctnetlink_fill_info invocation from non-system-probe process\n");
? ? ? ? return 0;
? ? }
? ? u32 status = ct_status(ct);
? ? if (!(status&IPS_CONFIRMED) || !(status&IPS_NAT_MASK)) {
? ? ? ? return 0;
? ? }
? ? __maybe_unused possible_net_t c_net = BPF_CORE_READ(ct, ct_net);
? ? log_debug("kprobe/ctnetlink_fill_info: netns: %u, status: %x\n", get_netns(&c_net), status);
? ? conntrack_tuple_t orig = {}, reply = {};
? ? if (nf_conn_to_conntrack_tuples(ct, &orig, &reply) != 0) {
? ? ? ? return 0;
? ? }
? ? bpf_map_update_with_telemetry(conntrack, &orig, &reply, BPF_ANY);
? ? bpf_map_update_with_telemetry(conntrack, &reply, &orig, BPF_ANY);
? ? increment_telemetry_registers_count();
? ? return 0;
}
自此将kernel中NAT的sock五元组采集到了ebpf的map中,上报到用户空间。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与行业前沿动态
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散~