基于递归特性的网络应用流量行为分析
袁静1,2, 王俊松1,3, 李强1, 陈曦1
1. 清华大学 自动化系, 北京 100084
2. 国家计算机网络应急技术处理协调中心, 北京 100029
3. 天津医科大学 生物医药工程学院, 天津 300070
陈曦, 副研究员, E-mail:bjchenxi@mail.tsinghua.edu.cn

作者简介: 袁静(1983-), 女(汉), 陕西, 博士研究生。

摘要

准确刻画不同网络应用流量的行为特征,是识别和控制应用流量以及保证互联网服务质量的关键。该文提出一种基于流量系统状态递归特性的分析方法,研究应用流量的内在动力学行为。针对实际网络中多类不同应用流量的时间序列,首先重构流量序列的高维相空间,然后分析应用流量系统状态运动轨迹的递归特性,揭示其各自固有的内在行为。实验结果表明,流量的非线性动力学特征能够准确地刻画各类网络应用流量的行为,并且不随网络规模或网络协议版本的改变而发生变化。因此,流量的非线性动力学特征有助于提高互联网应用流量识别与控制的性能。

关键词: 网络应用流量; 相空间; 递归特性; 动力学特征
中图分类号:TP393.0 文献标志码:A 文章编号:1000-0054(2014)04-0515-07
Recurrence based nonlinear analysis for network application traffic
Jing YUAN1,2, Junsong WANG1,3, Qiang LI1, Xi CHEN1
1. Department of Automation, Tsinghua University, Beijing 100084, China
2. National Computer Network Emergency Response Technical Team Coordination Center of China, Beijing 100029, China
3. School of Biomedical Engineering, Tianjin Medical University, Tianjin 300070, China
Abstract

Accurate characterization of the traffic from different network applications plays an important role in traffic classifications to guarantee the quality of service of Internet traffic. The behavior of various network application traffic was analyzed based on the recurrence properties of the network traffic. A high-dimensional phase space is constructed for the traffic time series and then recurrences in the traffic state trajectory are analyzed to identify the intrinsic characteristics of the application traffic. Analyses show that the nonlinear dynamic features can accurately characterize application traffic behavior and that these features are independent of the network scale and Internet protocol version. Therefore, the nonlinear dynamics of application traffic can be used to improve network traffic classification.

Keyword: network application traffic; phase space; recurrence property; dynamic feature

随着计算机网络的不断演化和扩大,互联网已经发展成为一个相当复杂的网络系统,其网络流量行为在时间和空间上都呈现出复杂的非线性动态特征[1,2,3]。为了能够更加有效地利用带宽资源,保证服务质量满足用户需求,网络管理者需要对不同的应用流量进行识别和控制。但如何准确地刻画网络应用流量行为和选取有效的特征作为流量识别的依据仍然是一个具有挑战性的问题。

目前关于网络流量行为分析的研究主要集中在两个方面。一方面是从流量的不同组成粒度(如数据包或网络流)出发,根据流量的统计测量值即数据包的达到时间间隔、数据包的平均大小、网络流的持续时间及网络流的端口分布等信息研究和分析流量的行为特性[4,5]。文[4]利用平均数据包大小、网络流大小及持续时间的概率分布等统计信息,对IPv4和IPv6流量的行为特征进行分析和比较。文[5]根据流量的42个统计信息,采用C5.0决策算法对不同的应用流量进行分类识别。虽然这些统计信息能够一定程度上有效地刻画网络流量的行为特征,但它们丢失了流量行为随时间变化的动态特性,而且当网络规模或网络应用环境发生变化时,这些统计信息可能也会随之发生变化,从而无法准确可靠地描述网络应用流量的行为。另一方面,互联网是一个复杂的网络系统,其流量行为具有非线性、非平稳等混沌特性,因此,一些研究工作利用非线性理论分析网络流量的内在的动力学行为特征[6,7,8,9]。文[6-7]指出网络流量具有长相关与自相似的行为特性。文[8]利用递归图分析网络流量序列中存在的非平稳过渡模式,并对序列的动态演化模式进行量化评估。这些工作都仅着眼于分析整体网络流量的行为特征。文[9]采用关联维对不同的网络应用流量序列进行分析,但只研究了HTTP、 FTP及SMTP 这3种传统应用。

本文提出了一种基于流量递归特性的分析方法,通过对网络中不同应用流量的时间序列进行高维相空间重构,分析流量系统状态的递归重现特性,揭示了各类应用流量本身所固有的非线性动力学行为特性。实验结果表明,本文所提取的非线性动力学特征能够准确地刻画不同应用流量的行为,有助于网络应用流量的识别与控制。

1 基于递归图的网络流量分析方法
1.1 相空间重构

互联网是一个复杂的动力学系统,其网络流量行为具有混沌特性。在自然界中,动力学系统运动轨迹经过一段时间的演化和发展,一般最终都会达到一种稳定状态,即系统的运动轨迹呈现出一定的规律性。因此,为了研究各类网络应用流量相空间运动轨迹的规律性,本文首先利用Takens提出的嵌入理论[10]将一维的网络流量时间序列{ xi, i=1,2,…, n}映射到高维相空间,重构流量信号的相空间系统状态运动轨迹。网络流量高维相空间的系统状态量如下所示:

Xj=[xj,xj+τ,,xj+(m-1)τ], j=1,2,,N.(1)

其中: Xj是网络流量信号在 m维相空间中的状态量; m是嵌入维数; τ是延迟时间; N=n-( m-1) τ是系统状态量的个数。

τ m是重构流量信号相空间的2个重要参数。目前,计算 τ的方法有很多种,最常见的2种方法是自相关函数法(autocorrelation function, AF)和互信息方法(mutual information, MI)[10]。由于网络流量系统是一个非线性系统,因此相对于计算流量序列线性相关的自相关函数法,计算序列非线性相关的互信息方法更适合求解网络流量时间序列的延迟时间。对于 m,本文采用虚假最近邻点法(false nearest neighbors, FNN)[10]求得合适的取值,使得网络流量相空间的几何结构被完全打开,从而能够准确地恢复系统状态的运动轨迹。

本文旨在分析不同网络应用流量的行为特性,因此分别计算各类应用流量序列的互信息与 τ之间的关系,结果如图1所示。可以看出,除了Email应用外,其他5种应用的互信息在时刻点2处第一次到达局部最小值,而Email应用的互信息第一次局部最小值出现在时刻点3处。为了统一分析,本文选择 τ=2作为最佳的延迟时间。

图1 不同网络应用协议流量序列互信息与τ的关系

图2显示了不同应用流量序列的虚假最近邻点比例与 m之间的关系。可以看出,应用流量序列的虚假最近邻点比例在 m=5之后都趋于0, 因此本文选择的最佳嵌入维数为5。当 τ=2, m=5时,网络流量序列的相空间能够得到很好地展开,系统状态的运动轨迹能够得到最佳地恢复。

图2 不同网络应用协议流量序列虚假近邻点比例与m的关系

1.2 流量序列的递归图分析

递归重现现象是动力学系统状态运动轨迹演化的一个基本规律。它是指相空间内系统状态经过一段时间的演化后,会与之前的某个状态相似或接近,即系统状态运动轨迹的演化模式出现周期性递归现象。为了更好地认知和理解网络流量系统状态的递归特性,本文采用递归图[11]将流量系统状态的递归重现现象通过一个二维平面直观地显现出来。其数学表达式为

Ri,j=Θε-Xi-Xj,XiRm,i,j=1,2,,N.(2)

其中: Ri, j是递归矩阵元素; ε表示预先设置的阈值距离; Xi是网络流量的系统状态量; ‖·‖是Euclid距离; Θ ·是一个Heaviside函数,当变量大于等于0时值为1, 当变量小于0时值为0。

递归图能够直观地将网络流量高维相空间内系统状态运动轨迹的递归重现特性映射到一个二维平面。如果流量系统状态 Xi Xj之间的距离小于 ε,则说明时刻 i的状态与时刻 j的状态非常相似,即状态运动轨迹出现递归,这时 Ri, j的值为1并在二维图像的( i, j)位置上用一个黑点表示; 如果 Xi Xj之间的距离大于 ε,则表示两个状态相差甚远,这时 Ri, j的值为0并在二维图像的( i, j)位置上用一个白点表示。图3给出了HTTP和FTP两种不同应用流量的递归图。可以看出,递归图能够将这两种不同应用的系统状态运动轨迹的递归特性清晰地展现出来。

ε是计算递归图的关键参数。如果 ε选取过大,则会导致大部分的网络流量系统状态都是相似状态,递归图中黑点数目较多; 如果 ε选取过小,则难以发现相似的流量系统状态,使得递归图中白色区域较大。本文根据文[12]中提到的“经验法则”,选取 ε为相空间最大直径的10%。

2 基于递归定量的网络流量分析方法

递归图仅直观地展示了流量系统状态运动轨迹的递归特性。为了能够定量地分析流量系统状态的递归特性,本文采用递归定量分析方法(recurrence quantification analysis, RQA)[13],对应用流量递归图所展示的全局结构和局部纹理特征进行定量分析。本文选取3个常用的量化参数,即递归度(recurrence ratio, RR)、 确定性(determinism, DET)和熵(entropy, ENT), 作为网络流量的动力学特征,刻画和描述不同应用流量的内在行为。

1) 递归度表示在网络流量递归图中,递归点所占的比率,它测量了流量递归点的密度。如果网络流量信号具有一定的周期性,则该应用流量的相空间运动轨迹具有较高的递归度。

RR=1N2i,j=1NRi,j.(3)

2) 确定率表示在网络流量递归图中,构成45°对角线结构的递归点所占的比率,它衡量了网络流量系统的确定性。如果网络流量系统的确定率越高,则表明流量序列的周期性越强,其行为具有确定性和可测性。这是因为在递归图中,周期性时间序列的递归点能够构成更长的45°对角线段。总之,确定率衡量了一个网络流量动力学系统的周期性和可预测性。

DET=l=lminNlP(l)i,j=1NRi,j.(4)

其中: P( l)表示在递归图中长度为 l的对角线的频数分布; lmin是对角线的最小长度,在本文中取值为2。

3) 熵表示在网络流量递归图中, 45°对角线长度概率分布的Shannon熵。它衡量了网络流量系统确定性的复杂程度。

ENT=-l=lminNp(l)lbp(l).(5)

其中 p( l) = P(l)l=lminNP(l)是45°对角线长度分布概率密度。

这3个递归参量作为网络流量的动力学特征,从不同角度量化了流量系统状态的递归特性,能够揭示各类应用流量的内在动力学行为。

3 网络应用流量行为分析

本节利用递归图和递归定量分析方法对实际网络流量数据进行分析,揭示各类网络应用流量的内在动力学行为特性。

3.1 实验数据

实验数据采集自教育网西北网络中心的主干网节点,它是西安交通大学整个校园网的流量数据。西安交通大学校园网由30 000多个拥有独立IP的用户组成,覆盖学生宿舍区以及校园办公区,其校园网出口路由器的网络带宽为10 Gb/s。该校园网包含了不同的用户群体,其流量数据类型非常丰富。因此本文所采用的实验数据集能够代表当前网络流量的实际情况,其具体描述如表1所示。

表1 实验数据集说明

由于本文是对不同网络应用协议的流量数据进行分析,因此,首先根据5元组(即源IP、 目的IP、 源端口、目的端口和网络传输层协议)将原始的数据包组合成网络流,其采样时间间隔为5 min; 然后根据不同网络应用协议的端口号对流量进行分类。表2列出了本文主要分析的6种常见网络应用业务。

表2 网络应用协议类型
3.2 不同应用流量的行为分析结果

基于流量系统状态的递归特性,本节对上述6种不同网络应用流量的行为特征进行分析。由于0:00~8:00这段时间网络流量非常小,实验中只考虑8:00~24:00(16 h)的流量数据。

图4 不同网络应用协议流量的递归图

3.2.1 递归图分析结果

根据节1中已经确定的 τ=2、 m=5以及 ε为相空间最大直径的10%,分别计算和绘制上述6种不同网络应用流量的递归图,如图4所示。

图4可以看出,各类应用流量的递归图所展示的全局结构和纹理特征差异显著,这说明不同的网络应用流量具有不同的动力学行为特性。对于HTTP、 DNS、 BitTorrent和QQ这4种应用流量而言,它们的递归图中同时存在孤立点和45°对角线段两种纹理特征,这表明这4类应用流量既有随机性的行为又有确定性的行为,是典型的混沌信号。相比HTTP和QQ的递归图, DNS和BitTorrent的递归图中孤立点更多一些,说明这两种应用流量的行为更具随机性。而HTTP和QQ作为目前网络中应用最广泛的两类服务(Web和即时聊天), 其流量行为相对确定,故而它们的系统状态在演化过程中会持续逼近并在递归图中呈现出较多的45°对角线结构。

FTP和Email两种应用的递归图与其他递归图所展示的纹理特征截然不同。在这两类应用流量的递归图中,许多相互间隔的水平或垂直的黑色矩形方块说明FTP与Email流量的系统状态在某段时间内变化缓慢,而水平或垂直的白色区域(间隔)则表示两类流量的系统状态运动轨迹在某段时间内发生了重大的偏离。因此,对于FTP和Email流量而言,其行为在短时间尺度上具有平稳特性,而在长时间尺度上具有非平稳的过渡模式。但这两种应用流量又存在不同, Email流量的行为变化更频繁,而FTP流量的行为偏离更明显。

3.2.2 递归定量分析结果

利用RQA方法对图4所展示的纹理特征进行定量分析,其结果如表3所示。可以看出,各类应用流量的RQA结果各不相同,这进一步说明不同的网络应用流量具有不同的动力学行为特性。其中, FTP流量的3个量化参数的值最高,尤其是DET高达89.34%,这说明在这6种应用中, FTP流量最具可测性,其行为的确定性和周期性最强。Email流量的RQA结果比FTP流量的都略低,因此比FTP流量的确定性稍弱。因为HTTP、 DNS、 BitTorrent及QQ这4种流量具有明显的混沌特性,所以RQA的结果比FTP和Email流量的都低,其中DNS流量的量化参数值最小,这表明DNS流量行为的随机性相对较明显。

表3 不同网络应用流量的RQA结果

基于递归特性,通过分析不同网络应用的流量序列,本文发现各类应用流量的内在动力学行为具有明显的差异,这与应用本身的工作机理和所提供的业务服务有密切关系。例如FTP 与Email提供的服务相对简单,故而这两种应用流量的行为较确定,而HTTP由于不仅提供简单的网页浏览,更为用户提供复杂的交互式服务(如博客、社交网站、微博等), 这导致HTTP流量既有确定性的行为又有随机性的行为,是典型的混沌信号,其行为的可预测性较差。由此可见,网络流量的动力学特征反应了各类应用业务的内在机理,因此能够准确描述流量行为。

3.3 应用流量行为对比

本节通过对比实验,深入分析各类网络应用流量的动力学特征是否随网络规模与网络协议版本的改变而发生变化。

3.3.1 B类网与C类网的对比

选取西安交通大学整个校园网的流量作为B类网的实验数据,其具体描述如表1所示。选取清华大学某系的网络作为C类网络,从其出口路由器采集流量数据,时间为8:00—24:00, 共16 h, 采样时间间隔为1 min。由于该系办公网络的流量数据主要由HTTP、 FTP及Email这3种网络应用流量组成,因此本文主要对比这3种传统应用流量的行为特征,其结果如图5和6所示。

图5 不同网络应用协议流量的递归图

图6 不同网络应用协议流量的RAQ

图5可以看出在C类网中,3种应用流量的递归图所展示的纹理特征与B类网的相似。HTTP流量为典型的混沌信号,随机行为与确定行为并存; 而FTP流量和Email流量行为在小的时间范围内是平稳的,而在大的时间范围内是非平稳的。图6给出了两类网络下不同应用流量的RQA分析对比结果,可以看出其量化结果非常相似。因此RP和RQA的量化结果充分说明各类网络应用流量的内在动力学特征并不随网络规模的不同而发生明显改变。

3.2.2 IPv4与IPv6的对比

本节主要对比IPv4和IPv6两种不同网络协议版本下各类应用流量的动力学行为特征。由于IPv6网络协议版本还未被普及,其网络应用流量的类型相对IPv4比较单一。通过深入分析IPv6网络流量,本文发现大部分的流量都是基于Private Tracker技术的P2P应用即μTorrent所产生的流量。Private Tracker是一种新的P2P应用技术,是从BitTorrent技术演化而来,目前在教育网IPv6下被广泛应用。

节3.2是针对P2P应用中的BitTorrent流量进行分析的,但在IPv6中BitTorrent的流量非常小,大部分P2P应用流量都是由μTorrent所产生的。因此,本节选择对传统应用HTTP与P2P应用μTorrent的流量进行分析比较。图7给出了IPv4与IPv6下两类网络应用流量的递归图。可以看出IPv6各类应用流量的递归图,不管是从全局结构还是从纹理特征,都与IPv4应用流量非常相似,并且图8所示的RQA量化分析结果也基本相同。由此可见,各类网络应用流量的内在动力学特征不因网络协议版本而改变。

图7 不同网络应用协议流量的递归图

图8 不同网络应用协议流量的RAQ

4 结 论

本文提出了一种基于网络流量递归特性的分析方法,利用递归图和递归定量分析,研究实际网络中各类应用流量的内在动力学特征,揭示了不同网络应用流量本身所固有的行为特性,且这些动力学特征不因网络规模或协议版本而改变。

该方法从系统状态演化的角度,针对不同的网络应用流量,揭示了其各自的内在行为特征。下一步可以根据应用流量的内在动力学特征,设计更加准确的流量识别器,对应用流量进行有效地控制,以充分利用网络带宽资源,保证互联网的服务质量。

The authors have declared that no competing interests exist.

参考文献
[1] Ohira T, Sawatari R. Phase Transition in a computer network traffic model [J]. Physics Review E, 1998, 58(1): 193-195. [本文引用:1] [JCR: 2.326]
[2] Takayasu M, Takayasu H, Fukuda K. Dynamic phase transition observed in the Internet traffic flow[J]. Physica A, 2000, 277(1): 248-255. [本文引用:1] [JCR: 1.722]
[3] Bigdeli N, Haeri M, Choobkar S, et al. Characterization of complex behaviors of TCP/RED computer networks based on nonlinear time series analysis methods[J]. Physica D, 2007, 233(2): 138-150. [本文引用:1] [JCR: 1.829]
[4] LI Qiang, QIN Tao, GUAN Xionghong, et al. Empirical analysis and comparison of IPv4-IPv6 traffic: A case study on the campus network [C]// Proceedings of the 18th IEEE International Conference on Networks. Singapore: IEEE press, 2012: 395-399. [本文引用:1]
[5] Bujlow T, Riaz T, Pedersen J M. A method for classification of network traffic based on C5. 0 machine learning algorithm [C]// Proceedings of International Conference on Computing, Networking and Communications. Maui, HI: IEEE press, 2012: 237-241. [本文引用:1]
[6] Grossglauser M, Bolot J C. On the relevance of long-range dependence in network traffic[J]. IEEE/ACM Transactions on Networking, 1999, 7(5): 629-640. [本文引用:1] [JCR: 1.986]
[7] Willinger W, Paxson V, Taqqu M S. Self-Similarity and Heavy Tails: Structural Modeling of Network Traffic[M]. Boston, MA: Springer press, 1998. [本文引用:1]
[8] Masugi M. Recurrence plot-based approach to the analysis of IP-network traffic in terms of assessing non-stationary transitions over time[J]. IEEE Transactions on Circuites and Systems, 2006 53(10): 2318-2326. [本文引用:1]
[9] WANG Junsong, YUAN Jing, LI Qiang, et al. Correlation dimension based nonlinear analysis of network traffics with different application protocols[J]. Chinese Physics B, 2011, 20(5): 050506. [本文引用:1] [JCR: 1.392] [CJCR: 1.066]
[10] Kantz H, Schreiber T. Nonlinear Time Series Analysis [M]. 2nd ED. New York, NY: Cambridge University Press, 2004. [本文引用:3]
[11] Eckmann J P, Kamphorst S O, Ruelle D. Recurrence plots of dynamical systems[J]. Europhysics Letters, 1987, 4(9): 973-977. [本文引用:1] [JCR: 2.269]
[12] Marwan N, Romano M C, Thiel M, et al. Recurrence plots for the analysis of complex systems[J]. Physics Reports, 2007, 438(5): 237-329. [本文引用:1] [JCR: 22.91]
[13] Zbilut J P, Webber C L. Embedding and delays as derived from quantification of recurrence plots[J]. Physics Letter A, 1992, 171(3): 973-977. [本文引用:1] [JCR: 1.338]