发布时间:2019-11-29 18:29:36
高性能IP网络流量采集系统设计与实现
摘要:提出一种高性能IP网络流量采集系统体系结构,采用分层的方法解决全线速、高可靠、无丢包采集网络流量数据包,利用采集卡API接口程序和计算机程序过滤流量和提取特征,并将流量样本或特征字段高效地存储到磁盘阵列。经过测试,原型机网络采集速率最高达18 c,bps,传输和存储速率达到8 Gbps,存储空间达到40 TB,在实际网络中存储时长可以达到18、24 h。
关键词:高性能;流量采集;系统;全线速;磁盘阵列
网络流量是单位时间内通过网络链路的数据包的总体,是衡量网络负荷和转发性能的基本指标田。网络流量监测即抓取网络中传输数据包的总体数据并统计,而采集网络流量数据是对网络IP 数据报文的收集。
随着网络技术发展的突飞猛进,网络规模不断扩大,网络结构也越来越复杂,网络设备和应用程序的数量和种类日新月异。同时,用户更加注重访问网络和使用应用程序过程中的感受和体验。这种发展趋势必将导致网络传输速率和带宽与日俱增
运营商与网络管理人员通过高速探针监测网络流量,进行协议分析、异常流量分析,优化网络结构系统性能和安全控制,而且通过海量数据分析、数据挖掘等技术进行业务分析、用户行为分析,能积极主动调整业务结构,提高用户体验和满章度「驯
高性能网络流量监测和数据采集还原大流量网络流量数据,是网络监测和网络数据分析的基础。然而,在这种高速率高带宽的网络环境中,运营商与网络管理人员在运维和管理方面遇到的困难将明显增多和增大。首先,近几年网络链路速率的增长,网络主干链路已经进人] 0 Gbps,甚至40 Gbps,传统基于通用硬件平台设计的网络数据采集系统,已经不能适用于高性能链路环境的实际需求,不能达到全线速采集的目标,并且性价比较高;其次,厂商设备的技术的封闭,多种协议分析和特征信息提取需要开放的接口和数据格式;最后,在研究工作中,实验环境随时发生变化,系统应该具有良好的兼容性和扩展性。因此,在高速率高带宽的骨干网络传输线路中,抓取正在高速传输的网络数据包,按照要求过滤和筛选网络数据包和网络数据存储的速率、容量和格式等方面是目前主要关注的方向
1、系统体系结构设计
网络流量数据采集系统选取分层体系结构,从下到上分别是网络流量数据采集层、数据过滤层和存储层,详见图1。网络不同的处理过程中,各层的功能有所不同,系统各分层能够独立工作。
l . 1网络流量采集层
基金项目:陕西省教育厅科学研究j十划项目04JKi825);延安市科学技术研究发展计划项目(2014KG一09)作者简介:刘翼0982一),男,陕西延安人,延安大学.0程师,博士研究生。
网络流量采集层需要具备全线速、高可靠、无丢包的捕获镜像端口传输的网络流量数据,利用高性能采集卡将镜像端口的网络流量数据抓取到采集卡缓存内,再山缓存读取到系统中,并向上提供数据包捕获用丿当接口(API),按照用户要求过滤和筛选有效数据包。
图1网络流量采集系统体系结构图
l . 2数据过滤层
数据过滤层利用网络流量采集卡的提供的标准可编程接口,控制采集卡的工作,达到按需求抓取数据包的要求。同时使用计算机程序语言和算法提取有关特征信息,建立流量模型,分析应用程序流量特征,刻画用户网络行为。
1. 3存储层
存储层是将收集的网络流量总体或样本存储到磁盘上。在存储过程中,要求存储设备的写人速度达到数据的采集速度,不会出现丢失数据的现象在网络流量全线速采集的过程中,一般会将传输的总体的网络流量数据保存到存储中。原始流量抓取一般保存为PCAP格式的文件直接保存到磁盘上。另外,也可以先过滤筛选后储存。先按照需求将属性或特征相同的数据包抓取出来存储,或者直接提取某些特征字段存储0提取的字段可以保存为TXT 文件,也可以写人数据库。
1.4数据流
在不同实验环境中,网络流量数据采集过程可以分为先存后滤和先滤后存两种,它们的区别请见
先存后滤是将网络上传输的流量总体抓取下来直接存储,后期从存储内读取数据用程序语言进行离线过滤和分析。这样作的好处是能存储数据集总体,方便多方面研究工作;缺点是数据总体存储空间要求大,存储读写速度要求高。这种方式适合离线研究分析工作。
先滤后存是根据需求抓取属性或类型相同的流量或者流量中各种特征信息字段存储起来。它可能是部分子流,也可能是一或多个特征字符。优点是存储空间相对较小,存储的读写速度要求也较小,但增加了数据采集的开销,需要边采集边滤。这种方式目的性较强,能后在线实时地、自动地完成一些列固定的操作,适用于设计成熟的流量监控。
两种方法前者适用于研究工作,后者适用于系统部署,可以根据不同的环境和需求进行选择。
2、系统硬件结构设计与实现
按照上述的多层系统体系结构理论,网络设备镜像端口点对点连接系统硬件设备。硬件设备由一台服务器构成,搭载PCI一E接口万兆网络流量数据采集卡和磁盘存储阵列
网络流量采集方式多样,通常通过分光器或者网络节电设备的信息流复制能力获取原始数据的副本,这样并不影响源数据的传输。在网络路由、交换设备上配置镜像端口的过程中还要根据网络设备的性能设置实验证明,端口的转发量在网络设备的背板带宽的35%、40%之间较为合理。也就是说,源端口和镜像端口数据转发量之和,最高达到网络设备总交换能力的70%一80%。网络设备的数据交换量在这个范围内,证明设备已达到满负荷运转。超过此范围,设备将超负荷运转,可靠性将降低。
万兆网络数据采集卡在被动模式下进行高速数据包捕获,包括64字节在内的多种包长的数据包都可以做到10 Gbps线速捕获。
大客户
微信
置顶