XDP的重定向工作原理

114次阅读

共计 3497 个字符，预计需要花费 9 分钟才能阅读完成。

导读	XDP Scoket 也一个文件描述符，因此可以通过 poll/epoll/select 来等待 IO 事件，需要说明的是：收 / 发的数据包是原始的以太网帧，因此在包处理上要麻烦一些。

XDP 的重定向工作原理

一. XDP Socket 示例解析

源码参见：https://github.com/xdp-project/xdp-tutorial/tree/master/advanced03-AF_XDP 该示例演示了如何通过 BPF 将网络数据包从 XDP Hook 点旁路到用户态的 XDP Socket，解析过程中为突出重点，将只关注重点代码段，一些函数会被精简，比如：错误处理等。

二. BPF 程序 af_xdp_kern.c

BPF 程序是运行在内核态的一段代码，如下：

 struct bpf_map_def SEC("maps") xsks_map = {
    .type = BPF_MAP_TYPE_XSKMAP,
    .key_size = sizeof(int),
    .value_size = sizeof(int),
    .max_entries = 64,  /* Assume netdev has no more than 64 queues */
};
 
SEC("xdp_sock")
int xdp_sock_prog(struct xdp_md *ctx)
{
    int index = ctx->rx_queue_index;
 
    if (bpf_map_lookup_elem(&xsks_map, &index))
        return bpf_redirect_map(&xsks_map, index, 0);
    
    return XDP_PASS;
}

struct bpf_map_def SEC(“maps”) xsks_map：定义了一个 BPF_MAP_TYPE_XSKMAP 类型的映射表，当采用 SEC(“maps”) 方式来显示定义时，将在生成的 bpf 目标文件的 ELF 格式中看到相关描述，当 BPF 程序被加载到内核时，会自动创建名为“xsks_map”的描述符，用户态可通过查找“xsks_map”来获取该 map 的描述符，这样用户态和内核 BPF 程序就可以共同访问该 map。

type = BPF_MAP_TYPE_XSKMAP：指定该 map 的类型，它与 bpf_redirect_map() 结合使用以将收到的帧传递到指定套接字。

key_size = sizeof(int)，value_size = sizeof(int)：指定 key，value 长度。

针对以上 key，value 需要说明一下：对于 BPF_MAP_TYPE_XSKMAP 类型的 map，value 必须是 XDP socket 描述符，key 必须是 int 类型，原因在于 bpf_redirect_map() 的第二个参数，参见下面 2.10。

max_entries = 64：指定 map 最多存储 64 个元素。

SEC(“xdp_sock”)：指定 prog 函数符号，应用层可通过查找 ”xdp_sock” 加载该 prog，并绑定到指定网卡。

int xdp_sock_prog(struct xdp_md *ctx)：当网卡收到数据包时，会在 xdp hook 点调用该函数。

int index = ctx->rx_queue_index：获取该数据包来自网卡到哪个 rx 队列 ID，ctx 有许多成员，比如：网卡 ID，数据帧等等。

if (bpf_map_lookup_elem(&xsks_map, &index))：判断 xsks_map 是否存在 key 为 index（即 rx 队列号）的数据，注意，这里实际上就是判断该网卡是否绑定了 xdp Socket。

bpf_redirect_map(&xsks_map, index, 0)：bpf_redirect_map函数作用就是重定向，比如：将数据重定向到某个网卡，CPU，Socket 等等；当 bpf_redirect_map函数的第一个参数的 map 类型为 BPF_MAP_TYPE_XSKMAP 时，则表示将数据重定向到 XDP Scoket。

bpf_redirect_map（）会查找参数 1 即 xsks_map 中 key 为 index 的 value 是否存在，若存在，则检查 value 是否是一个 XDP Scoket，并且是否绑定到了该网卡（可以绑定到任意有效队列）。

综合以上，该 bpf 程序实现的功能就是：将收到的数据包重定向到 xsks_map 中指定的 XDP Socket。

三. 用户态程序 af_xdp_user.c

该程序实现 bpf 加载到网卡，创建 XDP Scoket 并绑定到网卡的指定队列，并通过 XDP Scoket 收发数据，这里仅分析 xXDP Scoket 相关部分。

 int main(int argc, char **argv)
{
    ...
    bpf_obj = load_bpf_and_xdp_attach(&cfg);
    map = bpf_object__find_map_by_name(bpf_obj, "xsks_map");
    ...
    xsks_map_fd = bpf_map__fd(map);
    ...
    umem = configure_xsk_umem(packet_buffer, packet_buffer_size);
    ...
    xsk_socket = xsk_configure_socket(&cfg, umem);
    ...
    rx_and_process(&cfg, xsk_socket);
    ...
}
 
static struct xsk_socket_info *xsk_configure_socket(struct config *cfg,
                            struct xsk_umem_info *umem)
{
    ...
    ret = xsk_socket__create(&xsk_info->xsk, cfg->ifname,
                 cfg->xsk_if_queue, umem->umem, &xsk_info->rx,
                 &xsk_info->tx, &xsk_cfg);
    ...

bpf_obj = load_bpf_and_xdp_attach(&cfg): 加载 bpf 程序，并绑定到网卡。

map = bpf_object__find_map_by_name(bpf_obj, “xsks_map”)：查找 bpf 程序内定义的 xsks_map。

umem = configure_xsk_umem(packet_buffer, packet_buffer_size)：为 XDP Scoket 准备 UMEM。

xsk_configure_socket() 通过调用 bpf helper 函数 xsk_socket__create（）创建 XDP Scoket 并绑定到 cfg->ifname 网卡的 cfg->xsk_if_queue 队列，默认情况下将该【cfg->xsk_if_queue，xsk_info->xsk fd】添加到 xsks_map, 这样 bpf 程序就可以重定向到该 XDP Scoket（参见 2.9, 2.10), 除非指定 XSK_LIBBPF_FLAGS__INHIBIT_PROG_LOAD 标志。

 static void rx_and_process(struct config *cfg,
               struct xsk_socket_info *xsk_socket)
{struct pollfd fds[2];
    int ret, nfds = 1;
 
    memset(fds, 0, sizeof(fds));
    fds[0].fd = xsk_socket__fd(xsk_socket->xsk);
    fds[0].events = POLLIN;
    
    while(!global_exit) {if (cfg->xsk_poll_mode) {ret = poll(fds, nfds, -1);
            if (ret  1)
                continue;
        }
        handle_receive_packets(xsk_socket);
    }
}

XDP Scoket 也是一个文件描述符，因此可以通过 poll/epoll/select 来等待 IO 事件，需要说明的是：收 / 发的数据包是原始的以太网帧，因此在包处理上要麻烦一些。

四. 总结

以上简略分析了 bpf 程序如何将数据重定向到用户态程序，通过 xsks_map 来实现 bpf 与用户态程序的交互；

需要说明的是，这些分析仅是梳理了浅层次的代码，实际上 BPF 是如何将数据读写到 XDP Scoket 收发缓冲区的呢？其实是通过创建共享内存并关联 XDP Scoket 的 rx_ring，tx_ring，以及 umem 来实现的，后续继续分析。

bpf 程序通常都非常简单，复杂的是用户态程序，此外，BPF 有非常多的技术细节，限于篇幅及主题不在此展开。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年，有高配

腾讯云新客低至 82 元 / 年，老客户 99 元 / 年

代金券：在阿里云专用满减优惠券

正文完

星哥玩云-微信公众号

发表至： linux教程

2024-07-24

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Ansible普通用户su切换问题详解

Linux 逻辑卷管理LVM

Linux 系统指标实时监控 Glances实用指南【每日一个知识点第80期-Linux】

在 Linux中find命令使用技巧

作为一名开发者的秘诀

SEO技巧：什么是长尾关键词，如何挖掘长尾关键词

肝！0基础玩转shell编程实战！（附赠100个拿来就用的shell脚本实例）

您是怎么看待运维这份工作的？

15 条实用 Linux/Unix 磁带管理命令

XDP的重定向工作原理

开源堡垒机JumpServer配置教程：使用步骤与配置

申请腾讯混元的API Key并且使用LobeChat调用混元AI

Docker部署搭建一个开源强大的图书管理系统

【开源安全保护】如何安装JumpServer堡垒机

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

教你如何快速切换Linux PHP版本

使用 yum-cron 自动更新 Linux系统

SSH命令使用小节

如何通过第三方平台免费使用Deepseek

网站加速：WordPress Redis缓存设置

	struct bpf_map_def SEC("maps") xsks_map = {
	.type = BPF_MAP_TYPE_XSKMAP,
	.key_size = sizeof(int),
	.value_size = sizeof(int),
	.max_entries = 64, /* Assume netdev has no more than 64 queues */
	};

	SEC("xdp_sock")
	int xdp_sock_prog(struct xdp_md *ctx)
	{
	int index = ctx->rx_queue_index;

	if (bpf_map_lookup_elem(&xsks_map, &index))
	return bpf_redirect_map(&xsks_map, index, 0);

	return XDP_PASS;
	}

	int main(int argc, char **argv)
	{
	...
	bpf_obj = load_bpf_and_xdp_attach(&cfg);
	map = bpf_object__find_map_by_name(bpf_obj, "xsks_map");
	...
	xsks_map_fd = bpf_map__fd(map);
	...
	umem = configure_xsk_umem(packet_buffer, packet_buffer_size);
	...
	xsk_socket = xsk_configure_socket(&cfg, umem);
	...
	rx_and_process(&cfg, xsk_socket);
	...
	}

	static struct xsk_socket_info xsk_configure_socket(struct config cfg,
	struct xsk_umem_info *umem)
	{
	...
	ret = xsk_socket__create(&xsk_info->xsk, cfg->ifname,
	cfg->xsk_if_queue, umem->umem, &xsk_info->rx,
	&xsk_info->tx, &xsk_cfg);
	...

	static void rx_and_process(struct config *cfg,
	struct xsk_socket_info *xsk_socket)
	{struct pollfd fds[2];
	int ret, nfds = 1;

	memset(fds, 0, sizeof(fds));
	fds[0].fd = xsk_socket__fd(xsk_socket->xsk);
	fds[0].events = POLLIN;

	while(!global_exit) {if (cfg->xsk_poll_mode) {ret = poll(fds, nfds, -1);
	if (ret 1)
	continue;
	}
	handle_receive_packets(xsk_socket);
	}
	}