基于网络流量可视化研究的文献计量分析
位置: 首页 >专题范文 > 公文范文 > 文章内容

基于网络流量可视化研究的文献计量分析

2022-10-19 15:54:01 投稿作者:网友投稿 点击:

摘 要: 采用Web of Science中1999—2017年收录的450篇以网络流量可视化为主题的文献作为数据来源,主要运用CiteSpace 可视化工具,使用科学计量学的分析方法,回顾国际上该领域的研究热点及研究概况。研究发现,目前为止,已完成新的理论体系研究,并延伸到众多典型研究领域。其中计算机领域和数学领域的期刊成为主要引用期刊,并且作者之间合作密切,可视分析成为近年来一大研究热点。分析结果有助于为该领域的相关人员做进一步深层研究提供参考。

关键词: 网络流量; 可视分析; CiteSpace; 文献计量分析; 知识图谱; 科学计量学

中图分类号: TN711⁃34 文献标识码: A 文章编号: 1004⁃373X(2018)18⁃0062⁃05

Bibliometric analysis based on visualization study of network traffic

SU Rui, Nurbol, WANG Peng

(School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

Abstract: Taking 450 network traffic visualization themed papers recorded in Web of Science from 1999 to 2017 as the data source, the international research hotspot and research overview in this field were reviewed by mainly using the visualization tool CiteSpace and analysis method of scientometrics. It is found that up to now, new theoretical system research has been completed and extended to many typical research fields. The journals in computer science and mathematics fields are mostly cited in the research, and the cooperation among the authors is close. Visual analysis has become a research hotspot in recent years. The analysis results can provide a reference for related personnel in the field to carry out further deep research.

Keywords: network traffic; visual analysis; CiteSpace; bibliometric analysis; knowledge map; scientometrics

0 引 言

网络流量是主要的网络状态之一,像蠕虫传播和网络扫描这样的事件通常首先导致流量发生显著变化,如何帮助网络安全分析人员理解流量数据下的信息流已成为网络取证的一个重要而紧迫的问题。而数据可视化可将大型数据集中的数据以图形图像形式表示,并发现其中未知信息,因此可视化已成为探索海量数据的有效方法,被经常应用到网络流量的研究[1]中来。

本文研究的目的在于了解国内外对基于网络流量可视化研究的基本现状。运用CiteSpace[2]工具的文獻计量方法指导,并结合网络流量和可视化相关知识,分析整理了近19年的网络流量可视化的研究概况(Web of Science中SCI论文为1999年至今),并构建了知识图谱。本文的主要目标是解决以下问题:

1) 国内外近19年在网络流量可视化领域的研究热点可能有哪些?

2) 网络流量可视化的研究概况是怎样的?

本文的主要研究工作表述如下:首先从多方面对该领域的研究概况进行阐述,然后分析基于共词的研究热点,为相关人员做深入研究提供参考。

1 数据来源与研究工具

1.1 数据来源

因有关基于网络流量可视化研究的中文文献较少,所以本文使用的数据来源于Web of Science核心合集(SCI⁃EXPANDED),以主题为检索项,以“visualization AND network traffic OR visualization AND network flow OR visual AND network traffic OR visual AND network flow OR visualize AND network traffic OR visualize AND network flow”为检索式,文献类型限定为“ARTICLE OR PROCEEDINGS PAPER”,研究领域限定为“COMPUTER SCIENCE * OR INFORMATION SCIENCE LIBRARY SCIENCE”,最终得到450篇相关文献。

1.2 研究方法及工具

本文所使用的研究方法是知识图谱[3],它是将应用数学、图形学、信息可视化技术等学科的理论、方法与计量学引文分析、共现分析等方法结合的一种研究方法。知识图谱的研究方法被广泛应用于从海量文献中凝炼关键知识点、发现学科研究前沿等问题,有利于了解所研究领域的整体状况。

使用的研究工具为陈超美教授开发的可视化软件:CiteSpace5.1.R6。CiteSpace可以对檢索得到的论文进行关键字、作者、共被引作者、国家与机构等分析,提炼出关键内容,最终找出学科领域严谨的关键路径和学科领域演进的关键点文献、分析学科的热点和前沿等功能。到目前为止,该软件已经成为计量分析方面影响力比较大的可视化软件之一。研究方法流程如图1所示。

2 研究概况

2.1 主要国家和机构分析

通过对国家和机构进行分析,可以帮助了解相关国家或机构对网络流量可视化领域的研究程度以及它们之间的合作情况。图2为设定工具阈值和相关系数后,绘制的国家及机构图谱,圆形节点代表国家,直线分支上的小节点代表机构,节点大小代表发文量多少;节点间的连线代表对应的两个国家或机构之间有合作关系;连线的粗细程度代表两者之间合作的紧密程度。

从表1可知,发文量在20篇以上的国家有6个,其中美国发文量最多。中间中心性反映了节点对应的国家在该领域中占据的位置,同时美国的中心度排名最高(1.02),表明大部分国家都直接或间接地与美国有合作关系,与美国主要合作的国家有中国、韩国、德国、加拿大和英国。通过对机构的分析,发现排名前10的机构共属于7个国家,其中美国3所、西班牙3所、德国2所、中国、韩国、英国各1所;并且这些国家发文量均在前10位,说明这些国家不管自身还是其机构,都在该领域处于非常活跃的状态。在这些机构中,德克萨斯大学和慕尼黑科技大学起步较早,其余机构的首次发文年份均在2004年以后,说明网络流量可视化的研究自2004年开始逐步受到国际的重视,并且关注点主要集中在可视化、检测、建模等方面。

2.2 作者分析

2.2.1 高产作者分析

作者的发文量间接反映了作者在某一领域的影响力。据统计,检索的450篇文献中,共得到作者493位。由表2可知,发文量为3篇的作者数量居多,其中Herrero A和Corchado E发文量并列第一(7篇),Herrero A教授主要的研究兴趣是和人工智能[4]应用相关,包括人工神经网络(主要是基于无监督学习),多智能体系统和混合人工智能,专门解决在计算机网络安全领域的问题;Corchado E教授的研究兴趣主要集中在人工神经网络,特别关注于探索性投影寻踪、自组织映射和核方法。从首次发文年份上看,集中分布在2003—2006年,说明1999—2002年期间,研究人员对基于网络流量可视化的研究正处于逐步摸索的阶段,并在2003—2006年渐渐有了研究成果。

2.2.2 作者合作分析

合作渗透在各个方面,对于各个领域的研究具有重大意义。图3所示的图谱中,节点代表作者,色调的冷暖程度代表作者的活跃程度;作者名字的大小代表作者发文量的多少;连线代表相关作者有合作关系。结合图3和统计结果可知,对该领域研究贡献位居前三的团体分别是Saiz J M,Herrero A和Corchado E,共合作(包括两两合作)论文9篇,主要集中在神经网络、网络检测和数学等方面;Lee H,Kim H和Bahk S,共合作论文5篇,主要集中在网络攻击、数据可视化等方面;Karlsson G,Fodor V和Dan G共合作论文3篇,主要集中在网络流量的分析、分组分布等方面。

2.3 核心文献分析

文献的被引频次[5]是最能直接体现文献学术影响力及其价值的重要指标。

表3是被引频次top10的文献统计列表,从表中可知,Zhang YM发表的“Active and dynamic information fusion for facial expression understanding from image sequences”[6]位居第一位,被引频次高达192次,该文探讨了一种多传感器信息融合技术,该技术使用动态贝叶斯网络建模,可以了解人脸表情在图像序列中的瞬时行为并在不同条件下准确地识别图像序列中的自发表情。第二位核心文献是Ahmad I发表的“Video transcoding: An overview of various techniques and research issues”[7]一文,被引频次为143次,该文概述了几种视频转码技术及其相关研究问题,并介绍了视频转码的一些基本概念,然后回顾和对比各种方法,强调了关键的研究问题。Ciresan Dan发表的“Multi⁃column deep neural network for traffic sign classification”[8]排在第三位,被引频次为131次,该文提出了一种对物体识别率较高的方法,该方法使用快速的、基于深层神经网络的完全参数化的GPU实现,不需要详细设计的预布线的特征提取器,是一种有监督的学习方法。它将在预处理后的数据上训练过的深度神经网络结合为多柱深度神经网络,进一步提高识别性能。

结合表3的关注点来看,10篇论文中有5篇都与人工智能相关。例如Corchado E发表的“Neural visualization of network traffic data for intrusion detection”[9]一文介绍了一个新的入侵检测系统,系统应用神经投影结构来检测计算机网络中的异常情况,并提出了一个提供智能决策支持系统领域的新角度,可以更有趣地预测要提取的海量流量数据集。然后通过功能性的、移动化的可视化界面描述这些预测,提供流量数据内部结构的可视信息。该篇文献的研究就很好地将人工智能相关知识应用到了入侵检测当中。可知,人工智能相关方法也完全可以应用到基于网络流量可视化的研究中来。

2.4 期刊分布和会议概况分析

对期刊和会议的分析,可以帮助了解基于网络流量可视化研究领域的重要期刊和会议。据统计,检索得到的450篇论文均属于期刊论文,其中92篇既是期刊论文,又是会议论文。

2.4.1 期刊分布分析

本文使用CiteSpace工具中的Daul⁃map overlays对期刊进行分析,可以有效揭示期刊间的联系。图4为使用Daul⁃map overlays对期刊分析的图谱,左侧是施引文献期刊;右侧是被引文献期刊。由图4可知,基于网络流量可视化的研究领域中,施引文献的期刊主要分布在两个区域,分别为:以曲线1为起点的物理学/材料学/化工、以曲线2为起点的数学/系统学/统计学。曲线1主要指向环境学/毒理学/营养学;曲线2有两条数据流,分别指向系统学/计算学/计算机学、兽医/动物学/寄生虫学,说明数学/系统学/统计学领域主要引用的期刊来源为系统学/计算学/计算机学和兽医/动物学/寄生虫学。

通过以上分析可知,施引文献期刊主要分布在数学、系统学、统计学,被引文献期刊主要分布在系统学、计算学、计算机学。所以计算机领域和数学领域的期刊是该研究领域的主要引用期刊。

2.4.2 会议概况分析

会议论文[10]是学术交流的重要产物,许多重要想法和研究成果的主要体现形式就是以国际会议论文的形式发表。本文对92篇会议论文分布的两个主要会议进行了介绍,表4为这两个会议近三年的主题列表。IEEE可视化会议(VIS)是致力于可视分析[11]的国际领先会议,该会议上的论文都比较具有参考价值。IEEE VIS 2006是第一届可视分析科学和技术进步的国际研讨会,会议主题主要围绕信息可视化、大数据可视化和可视化网络等方面;ACM SIGGRAPH会议是由美国计算机协会计算机图形专业组组织的计算机图形学的顶级年度会议,在图形图像技术、计算机软硬件等方面具有相当大的影响力,第一届ACM SIGGRAPH会议于1974年召开,该会议有上万名计算机从业者参加。

这些会议致力于研究可视呈现、可视分析和可视化网络等方面,各国相关领域的研究人员通过会议互相交流对数据可视化的新想法,并共同致力于推动数据可视化的发展,这些都充分说明数据可视化方向的研究已成为国内外研究的热点问题。

3 研究热点

研究热点体现了当下主流的研究内容,关键词是对一篇文章主旨内容的高度概括和凝练,直接反映了当前的研究热点。为了直观地了解网络流量可视化当前的研究热点,利用CiteSpace工具绘制了基于共词分析的关键词知识图谱,如图5所示,其中圆形节点大小代表关键词出现的频次。

从图5可以看出,排在首位的关键词是visualization,也是本篇文章的檢索词,与其相关的关键词还有:visual cortex,visual analytics。visualization对应的圆形节点链接多个节点分支,形成了以该节点为中心的小区域,所以可视化是本次研究的基础。同时发现visualization和visual cortex首次出现的年份分别是2001年和1999年,而visual analytics直到2014年才出现,就位居第9位,说明研究人员已经不再仅仅研究对数据做简单的可视呈现,而是慢慢延伸到通过挖掘数据间的关联关系而做更深层次的可视分析。所以据此可以预估,对可视分析的研究在未来一段时间内会不断上升。位于第二位的关键词是model,建模与可视化密切相关,可视化建模是利用围绕现实想法组织模型的一种思考问题的方法,通过建模可以详细了解可视分析的流程[12],是可视化系统开发的关键,与此相关的关键词有system,design。排在第三位的关键词是network,也是本篇文章的检索词,与此有关的关键词有neural network,flow,optical flow。综上所述,可视分析、建模和网络相关知识已成为当今网络流量可视化研究领域的三大研究热点。

经统计分析还发现,除了关键词visual analytics于2014年首次出现,其他关键词首次出现的年份均在1999—2005年间,这表明2005年以后的研究热点大多是于1999—2005年期间提出的,之后便很少提出新的研究方向,所以该领域的研究相对滞后,很多知识还有待学者进一步研究和探讨。

4 结 论

本文简要介绍并分析了国内外近19年有关网络流量可视化的研究概况和研究热点,可供学者从多方面对该领域进行了解。通过以上介绍,该领域可大致分为3个阶段:1999—2005年,初步摸索期;2006—2013年,迅速发展期;2014年至今,深化期。阶段分析如表5所示。

1) 发表国家、机构、作者集中。通过对文献发表数据统计,发表国家主要集中在美国、中国、德国;机构主要集中在布尔戈斯大学、中国科学院,其中中国科学院计算机网络中心通过对可视分析领域的探索,开发出了一款能够支持所见即所得的可视化开发的工具DIVZ,其可允许使用者快速地制作可视化并以云服务的形式对外发布,带动了可视化的发展;发表作者主要以Herrero A和Corchado E为主,两人不仅各自发表了多篇有价值的文章,并且多年来一直合作,并将人工智能与网络、数据可视化领域相结合,不断推出新的研究成果,是该领域的领军人物。

2) 核心文献涉及领域集中。根据核心文献发表数据统计,主要涉及并集中分布在人工智能、数据挖掘、机器学习、图形图像、网络安全五个领域,均是计算机学科当前较火的研究领域,从表5得知,数学也与网络流量可视化的研究密切相关,结合图4,该领域还涉及众多研究分支,比如:动物学、营养学、环境学等学科。相信未来,随着研究的深入,它的研究分支还会不断扩展。

3) 近年来,研究人员对网络流量可视化的领域进行着深入的研究。由表5可知,研究热点从网络、可视化、建模不断走向神经网络、可视分析、算法。国际上,提出许多网络流量可视化的新方法,例如:针对网络流量数据的时间、维度、结构等特征,提出了螺旋可视化技术、维度分类方法和空间填充技术等方法来满足不同特征下的可视化需求,其中直线映射、平行坐标、节点链路等技术是目前流量可视化使用最为广泛的技术。面对诸多方法,如何选择并有效提取网络流量的重要特征是该领域研究人员的挑战之一。

参考文献

[1] SHI Ronghua, YANG Mengjie, ZHAO Ying, et al. A matrix⁃based visualization system for network traffic forensics [J]. IEEE systems journal, 2016, 10(4): 1350⁃1360.

[2] CHEN Chaomei. CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature [J]. Journal of the American Society for Information Science and Technology, 2006, 28(3): 359⁃377.

[3] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582⁃600.

LIU Qiao, LI Yang, DUAN Hong, et al. Knowledge graph construction technique [J]. Journal of computer research and development, 2016, 53(3): 582⁃600.

[4] KAPLAN J. Artificial intelligence: think again [J]. Communications of the ACM, 2017, 60(1): 36⁃38.

[5] 张垒.高被引论文的特征因素及其对影响因子贡献研究[J].中国科技期刊研究,2015,26(8):880⁃885.

ZHANG Lei. Research on the characteristic factors of highly cited papers and their contribution to the impact factor [J]. Chinese journal of scientific and technical periodicals, 2015, 26(8): 880⁃885.

[6] ZHANG Y, JI Q. Active and dynamic information fusion for facial expression understanding from image sequences [J]. IEEE transactions on pattern analysis and machine intelligence, 2005, 27(5): 699⁃714.

[7] AHMAD I, WEI X, SUN Y, et al. Video transcoding: an overview of various techniques and research issues [J]. IEEE transactions on multimedia, 2005, 7(5): 793⁃804.

[8] DAN C, MEIER U, MASCI J, et al. Multi⁃column deep neural network for traffic sign classification [J]. Neural networks, 2012, 32(1): 333⁃338.

[9] CORCHADO E, HERRERO Á. Neural visualization of network traffic data for intrusion detection [J]. Applied soft computing journal, 2011, 11(2): 2042⁃2056.

[10] 裴世保,夏玉良.计算机学科会议论文重要性分析与探讨[J].科技管理研究,2013,33(8):241⁃245.

PEI Shibao, XIA Yuliang. Research on the importance of conference papers in computer discipline [J]. Science and technology management research, 2013, 33(8): 241?245.

[11] 任磊,杜一,马帅,等.大数据可视分析综述[J].软件学报,2014,25(9):1909⁃1936.

REN Lei, DU Yi, MA Shuai, et al. Visual analytics towards big data [J]. Journal of software, 2014, 25(9): 1909⁃1936.

[12] 张阳,薛原,马孝尊,等.一种改进的树型网络拓扑结构可视建模[J].电子信息对抗技术,2016,31(3):75⁃78.

ZHANG Yang, XUE Yuan, MA Xiaozun, et al. A modified method of tree network topology visualization model [J]. Electronic information warfare technology, 2016, 31(3): 75⁃78.


推荐访问:可视化 计量 文献 网络流量 分析

猜你喜欢