共计 3497 个字符,预计需要花费 9 分钟才能阅读完成。
导读 | XDP Scoket 也一个文件描述符,因此可以通过 poll/epoll/select 来等待 IO 事件,需要说明的是:收 / 发的数据包是原始的以太网帧,因此在包处理上要麻烦一些。 |
源码参见:https://github.com/xdp-project/xdp-tutorial/tree/master/advanced03-AF_XDP 该示例演示了如何通过 BPF 将网络数据包从 XDP Hook 点旁路到用户态的 XDP Socket,解析过程中为突出重点,将只关注重点代码段,一些函数会被精简,比如:错误处理等。
BPF 程序是运行在内核态的一段代码,如下:
struct bpf_map_def SEC("maps") xsks_map = {
.type = BPF_MAP_TYPE_XSKMAP,
.key_size = sizeof(int),
.value_size = sizeof(int),
.max_entries = 64, /* Assume netdev has no more than 64 queues */
};
SEC("xdp_sock")
int xdp_sock_prog(struct xdp_md *ctx)
{
int index = ctx->rx_queue_index;
if (bpf_map_lookup_elem(&xsks_map, &index))
return bpf_redirect_map(&xsks_map, index, 0);
return XDP_PASS;
}
struct bpf_map_def SEC(“maps”) xsks_map:定义了一个 BPF_MAP_TYPE_XSKMAP 类型的映射表,当采用 SEC(“maps”) 方式来显示定义时,将在生成的 bpf 目标文件的 ELF 格式中看到相关描述,当 BPF 程序被加载到内核时,会自动创建名为“xsks_map”的描述符,用户态可通过查找“xsks_map”来获取该 map 的描述符,这样用户态和内核 BPF 程序就可以共同访问该 map。
type = BPF_MAP_TYPE_XSKMAP:指定该 map 的类型,它与 bpf_redirect_map() 结合使用以将收到的帧传递到指定套接字。
key_size = sizeof(int),value_size = sizeof(int):指定 key,value 长度。
针对以上 key,value 需要说明一下:对于 BPF_MAP_TYPE_XSKMAP 类型的 map,value 必须是 XDP socket 描述符,key 必须是 int 类型,原因在于 bpf_redirect_map() 的第二个参数,参见下面 2.10。
max_entries = 64:指定 map 最多存储 64 个元素。
SEC(“xdp_sock”):指定 prog 函数符号,应用层可通过查找 ”xdp_sock” 加载该 prog,并绑定到指定网卡。
int xdp_sock_prog(struct xdp_md *ctx):当网卡收到数据包时,会在 xdp hook 点调用该函数。
int index = ctx->rx_queue_index:获取该数据包来自网卡到哪个 rx 队列 ID,ctx 有许多成员,比如:网卡 ID,数据帧等等。
if (bpf_map_lookup_elem(&xsks_map, &index)):判断 xsks_map 是否存在 key 为 index(即 rx 队列号)的数据,注意,这里实际上就是判断该网卡是否绑定了 xdp Socket。
bpf_redirect_map(&xsks_map, index, 0):bpf_redirect_map函数作用就是重定向,比如:将数据重定向到某个网卡,CPU,Socket 等等;当 bpf_redirect_map函数的第一个参数的 map 类型为 BPF_MAP_TYPE_XSKMAP 时,则表示将数据重定向到 XDP Scoket。
bpf_redirect_map()会查找参数 1 即 xsks_map 中 key 为 index 的 value 是否存在,若存在,则检查 value 是否是一个 XDP Scoket,并且是否绑定到了该网卡(可以绑定到任意有效队列)。
综合以上,该 bpf 程序实现的功能就是:将收到的数据包重定向到 xsks_map 中指定的 XDP Socket。
该程序实现 bpf 加载到网卡,创建 XDP Scoket 并绑定到网卡的指定队列,并通过 XDP Scoket 收发数据,这里仅分析 xXDP Scoket 相关部分。
int main(int argc, char **argv)
{
...
bpf_obj = load_bpf_and_xdp_attach(&cfg);
map = bpf_object__find_map_by_name(bpf_obj, "xsks_map");
...
xsks_map_fd = bpf_map__fd(map);
...
umem = configure_xsk_umem(packet_buffer, packet_buffer_size);
...
xsk_socket = xsk_configure_socket(&cfg, umem);
...
rx_and_process(&cfg, xsk_socket);
...
}
static struct xsk_socket_info *xsk_configure_socket(struct config *cfg,
struct xsk_umem_info *umem)
{
...
ret = xsk_socket__create(&xsk_info->xsk, cfg->ifname,
cfg->xsk_if_queue, umem->umem, &xsk_info->rx,
&xsk_info->tx, &xsk_cfg);
...
bpf_obj = load_bpf_and_xdp_attach(&cfg): 加载 bpf 程序,并绑定到网卡。
map = bpf_object__find_map_by_name(bpf_obj, “xsks_map”):查找 bpf 程序内定义的 xsks_map。
umem = configure_xsk_umem(packet_buffer, packet_buffer_size):为 XDP Scoket 准备 UMEM。
xsk_configure_socket() 通过调用 bpf helper 函数 xsk_socket__create()创建 XDP Scoket 并绑定到 cfg->ifname 网卡的 cfg->xsk_if_queue 队列,默认情况下将该【cfg->xsk_if_queue,xsk_info->xsk fd】添加到 xsks_map, 这样 bpf 程序就可以重定向到该 XDP Scoket(参见 2.9, 2.10), 除非指定 XSK_LIBBPF_FLAGS__INHIBIT_PROG_LOAD 标志。
static void rx_and_process(struct config *cfg,
struct xsk_socket_info *xsk_socket)
{struct pollfd fds[2];
int ret, nfds = 1;
memset(fds, 0, sizeof(fds));
fds[0].fd = xsk_socket__fd(xsk_socket->xsk);
fds[0].events = POLLIN;
while(!global_exit) {if (cfg->xsk_poll_mode) {ret = poll(fds, nfds, -1);
if (ret 1)
continue;
}
handle_receive_packets(xsk_socket);
}
}
XDP Scoket 也是一个文件描述符,因此可以通过 poll/epoll/select 来等待 IO 事件,需要说明的是:收 / 发的数据包是原始的以太网帧,因此在包处理上要麻烦一些。
以上简略分析了 bpf 程序如何将数据重定向到用户态程序,通过 xsks_map 来实现 bpf 与用户态程序的交互;
需要说明的是,这些分析仅是梳理了浅层次的代码,实际上 BPF 是如何将数据读写到 XDP Scoket 收发缓冲区的呢?其实是通过创建共享内存并关联 XDP Scoket 的 rx_ring,tx_ring,以及 umem 来实现的,后续继续分析。
bpf 程序通常都非常简单,复杂的是用户态程序,此外,BPF 有非常多的技术细节,限于篇幅及主题不在此展开。