Welcome 微信登录
编程资源 图片资源库 蚂蚁家优选 PDF转换器

首页 / 操作系统 / Linux / Linux内核中sk_buff分析

在内核中sk_buff表示一个网络数据包,它是一个双向链表,而链表头就是sk_buff_head,在老的内核里面sk_buff会有一个list域直接指向sk_buff_head也就是链表头,现在在2.6.32里面这个域已经被删除了。 

而sk_buff的内存布局可以分作3个段,第一个就是sk_buff自身,第二个是linear-databuff,第三个是paged-databuff(也就是skb_shared_info)。 

ok.我们先来看sk_buff_head的结构。它也就是所有sk_buff的头。 
  1. struct sk_buff_head {  
  2.     /* These two members must be first. */  
  3.     struct sk_buff  *next;  
  4.     struct sk_buff  *prev;  
  5.   
  6.     __u32       qlen;  
  7.     spinlock_t  lock;  
  8. }; 
这里可以看到前两个域是和sk_buff一致的,而且内核的注释是必须放到最前面。这里的原因是: 

这使得两个不同的结构可以放到同一个链表中,尽管sk_buff_head要比sk_buff小巧的多。另外,相同的函数可以同样应用于sk_buff和sk_buff_head。 

然后qlen域表示了当前的sk_buff链上包含多少个skb。 

lock域是自旋锁。 

然后我们来看sk_buff,下面就是skb的结构: 

我这里注释了一些简单的域,复杂的域下面会单独解释。
  1.   
  2. struct sk_buff {  
  3.     /* These two members must be first. */  
  4.     struct sk_buff      *next;  
  5.     struct sk_buff      *prev;  
  6.   
  7. //表示从属于那个socket,主要是被4层用到。   
  8.     struct sock     *sk;  
  9. //表示这个skb被接收的时间。   
  10.     ktime_t         tstamp;  
  11. //这个表示一个网络设备,当skb为输出时它表示skb将要输出的设备,当接收时,它表示输入设备。要注意,这个设备有可能会是虚拟设备(在3层以上看来)   
  12.     struct net_device   *dev;  
  13. ///这里其实应该是dst_entry类型,不知道为什么内核要改为ul。这个域主要用于路由子系统。这个数据结构保存了一些路由相关信息   
  14.     unsigned long       _skb_dst;  
  15. #ifdef CONFIG_XFRM  
  16.     struct  sec_path    *sp;  
  17. #endif  
  18. ///这个域很重要,我们下面会详细说明。这里只需要知道这个域是保存每层的控制信息的就够了。   
  19.     char            cb[48];  
  20. ///这个长度表示当前的skb中的数据的长度,这个长度即包括buf中的数据也包括切片的数据,也就是保存在skb_shared_info中的数据。这个值是会随着从一层到另一层而改变的。下面我们会对比这几个长度的。   
  21.     unsigned int        len,  
  22. ///这个长度只表示切片数据的长度,也就是skb_shared_info中的长度。   
  23.                 data_len;  
  24. ///这个长度表示mac头的长度(2层的头的长度)   
  25.     __u16           mac_len,  
  26. ///这个主要用于clone的时候,它表示clone的skb的头的长度。   
  27.                 hdr_len;  
  28.   
  29. ///接下来是校验相关的域。   
  30.     union {  
  31.         __wsum      csum;  
  32.         struct {  
  33.             __u16   csum_start;  
  34.             __u16   csum_offset;  
  35.         };  
  36.     };  
  37. ///优先级,主要用于QOS。   
  38.     __u32           priority;  
  39.     kmemcheck_bitfield_begin(flags1);  
  40. ///接下来是一些标志位。   
  41. //首先是是否可以本地切片的标志。   
  42.     __u8            local_df:1,  
  43. ///为1说明头可能被clone。   
  44.                 cloned:1,  
  45. ///这个表示校验相关的一个标记,表示硬件驱动是否为我们已经进行了校验(前面的blog有介绍)   
  46.                 ip_summed:2,  
  47. ///这个域如果为1,则说明这个skb的头域指针已经分配完毕,因此这个时候计算头的长度只需要head和data的差就可以了。   
  48.                 nohdr:1,  
  49. ///这个域不太理解什么意思。   
  50.                 nfctinfo:3;  
  51.   
  52. ///pkt_type主要是表示数据包的类型,比如多播,单播,回环等等。   
  53.     __u8            pkt_type:3,  
  54. ///这个域是一个clone标记。主要是在fast clone中被设置,我们后面讲到fast clone时会详细介绍这个域。   
  55.                 fclone:2,  
  56. ///ipvs拥有的域。   
  57.                 ipvs_property:1,  
  58. ///这个域应该是udp使用的一个域。表示只是查看数据。   
  59.                 peeked:1,  
  60. ///netfilter使用的域。是一个trace 标记   
  61.                 nf_trace:1;  
  62. ///这个表示L3层的协议。比如IP,IPV6等等。   
  63.     __be16          protocol:16;  
  64.     kmemcheck_bitfield_end(flags1);  
  65. ///skb的析构函数,一般都是设置为sock_rfree或者sock_wfree.   
  66.     void            (*destructor)(struct sk_buff *skb);  
  67.   
  68. ///netfilter相关的域。   
  69. #if defined(CONFIG_NF_CONNTRACK) || defined(CONFIG_NF_CONNTRACK_MODULE)  
  70.     struct nf_conntrack *nfct;  
  71.     struct sk_buff      *nfct_reasm;  
  72. #endif  
  73. #ifdef CONFIG_BRIDGE_NETFILTER  
  74.     struct nf_bridge_info   *nf_bridge;  
  75. #endif  
  76.   
  77. ///接收设备的index。   
  78.     int         iif;  
  79.   
  80. ///流量控制的相关域。   
  81. #ifdef CONFIG_NET_SCHED  
  82.     __u16           tc_index;   /* traffic control index */  
  83. #ifdef CONFIG_NET_CLS_ACT  
  84.     __u16           tc_verd;    /* traffic control verdict */  
  85. #endif  
  86. #endif  
  87.   
  88.     kmemcheck_bitfield_begin(flags2);  
  89. ///多队列设备的映射,也就是说映射到那个队列。   
  90.     __u16           queue_mapping:16;  
  91. #ifdef CONFIG_IPV6_NDISC_NODETYPE  
  92.     __u8            ndisc_nodetype:2;  
  93. #endif  
  94.     kmemcheck_bitfield_end(flags2);  
  95.   
  96.     /* 0/14 bit hole */  
  97.   
  98. #ifdef CONFIG_NET_DMA  
  99.     dma_cookie_t        dma_cookie;  
  100. #endif  
  101. #ifdef CONFIG_NETWORK_SECMARK  
  102.     __u32           secmark;  
  103. #endif  
  104. ///skb的标记。   
  105.     __u32           mark;  
  106.   
  107. ///vlan的控制tag。   
  108.     __u16           vlan_tci;  
  109.   
  110. ///传输层的头   
  111.     sk_buff_data_t      transport_header;  
  112. ///网络层的头   
  113.     sk_buff_data_t      network_header;  
  114. ///链路层的头。   
  115.     sk_buff_data_t      mac_header;  
  116. ///接下来就是几个操作skb数据的指针。下面会详细介绍。   
  117.     sk_buff_data_t      tail;  
  118.     sk_buff_data_t      end;  
  119.     unsigned char       *head,  
  120.                 *data;  
  121. ///这个表示整个skb的大小,包括skb本身,以及数据。   
  122.     unsigned int        truesize;  
  123. ///skb的引用计数   
  124.     atomic_t        users;  
  125. };  

我们来看前面没有解释的那些域。 

先来看cb域,他保存了每层所独自需要的内部数据。我们来看tcp的例子。 

我们知道tcp层的控制信息保存在tcp_skb_cb中,因此来看内核提供的宏来存取这个数据结构:  
  1. #define TCP_SKB_CB(__skb)  ((struct tcp_skb_cb *)&((__skb)->cb[0]))  
在ip层的话,我们可能会用cb来存取切片好的帧。  
  1. #define FRAG_CB(skb)    ((struct ipfrag_skb_cb *)((skb)->cb))