莎朗斯通 四川地震:LiterMiner——可视化多维文献分析工具

来源:百度文库 编辑:偶看新闻 时间:2024/05/03 10:30:13

LiterMiner——可视化多维文献分析工具

赵斌 吴斌 /北京邮电大学智能通信软件与多媒体北京市重点实验室 北京 100876

摘要:随着复杂网络研究的深入,网络分析方法被引入包括文献分析在内的多个领域。随着网络分析方法的逐步成熟,涌现出一批优秀的文献可视化分析工具。文章在分析这些工具特点的基础上介绍了融合网络分析与联机分析处理的文献分析工具LiterMiner,分析了该工具包括数据清理、社团发现与演化、GraphOLAP、系统架构在内的一系列系统特点,并通过一个完整的分析流程展示了这些特性。
关键词:文献分析,GraphOLAP,复杂网络,社团
DOI:10.3772/j.issn.1673—2286.2010.08.002

1 前言

随着存储设备容量的不断增大,人类进入了一个海量数据存储的时代。面对海量的科技文献数据,如何对它们进行高效的处理、分析、展示,对于进一步观察当前科学发展态势、分析科学研究特性、揭示热点研究领域以及为科研管理机构决策人员的战略决策提供依据有着重要的意义。
由于缺乏对大规模多关系型数据的处理能力,传统文献分析工具往往局限于对数据进行局部分析,忽视了数据间的联系。例如:当用户搜索某个关键词时,传统分析工具系统往往只能列出与该关键词相关的作者和文章,而不能展示出该关键词与其他关键词、学术热点和研究领域的关系。这种分析方式不利于对文献信息进行全面、深入的了解。
近年来,随着复杂网络研究的兴起,网络分析方法逐步被应用到包括文献分析在内的多个领域。利用网络分析文献数据,可以借助网络的可视化特点结合机器的特长与人的优势,帮助分析人员发现数据的隐藏特征。这也使得结合网络分析的文献可视化分析工具成为当前文献分析工具的主流。本文在分析总结这类工具特点的基础上,将重点介绍由北京邮电大学智能通信软件与多媒体北京市重点实验室开发的文献分析工具LiterMiner。本文其他部分安排如下:在第二部分相关工作中介绍当前流行的文献可视化分析工具;第三部分介绍LiterMiner主要的系统特点,包括数据清理、社团发现等;第四部分通过一个完整的分析流程展示这些特点;第五部分对全文进行总结。

2 相关工作

随着网络分析方法的逐步成熟,基于网络可视的分析工具也越来越多。HistCite[1]是由SCI创始人尤金?加菲尔德博士(Dr. Eugene Garfield)主导研发的一款分析引文网络的专用工具,可以从文献数据中发现各个学科的发展规律和未来趋势。该工具的主要缺点是处理多领域数据时生成的编年图太复杂,导致用户难以辨别关键文献及其之间的关系。CiteSpace是用来分析和展示引文网络的Java应用程序,通过对比引文网络不同时段的多个视图发现学科中的新趋势和重大事件[2]。RefViz是一款通过文章聚类反映某一研究领域发展和动态的引文分析工具[3],通过连接和对比某个领域在不同时段的多个视图来帮助识别知识领域中的新趋势。Jigsaw是一款多视图的文档间实体关系分析系统[4],通过多视图关联的方式向分析人员展示文本信息里存在的各种实体间的关系。由清华大学开发的ArnetMiner[5]是一款文献分析工具,可以很好地找出领域专家、作者从事的领域、合作团体等,但偏重于对单个作者信息的检索和挖掘。D-Dupe是交互式的实体解析软件[6],可以根据用户导入的相似函数和相似权重合并具有不同表述形式的同一实体,有效地处理数据中的不一致信息。在更广泛的复杂网络数据分析方面,NetworkX是一款专为复杂网络分析设计的免费软件[7],可以进行最短路径计算、同构分析、个体网络分析、差异性分析、中心性分析等。但该软件是通过命令行来进行操作的,增加了操作难度。UCINet是一款菜单驱动的网络分析软件,界面友好[8]。该软件不仅包括常用的网络静态特征分析程序,还包括众多的基于过程的分析程序,如多维量表(multidimensionalscaling)、二模标度(奇异值分解、因子分析和对应分析)、角色和地位分析(结构、角色和正则对等性)等以及多种统计程序。但该软件支持的数据规模较小,一般图的节点在万一级规模。
与上述工具相比,LiterMiner具有以下特点:
(1) 通过使用网络解析方法,在清理数据时无需用户导入参数;
(2) 提供了包括作者在内的多种实体的信息检索和挖掘,通过社团发现和社团演化,可以进一步分析作者所在的学术团队;
(3) 以OLAP的方式更完整、直观地分析多类实体间的关系;
(4) 分层展示引文网络,在处理涉及大学科的数据时,避免由于图中节点过多而导致用户难以辨别关键信息,此外LiterMiner采用更直观的方式展示引文网络的变化,无需连接和反复对比多个视图;
(5) 提供了友好的图形界面与菜单操作使用户易于使用;
(6) 支持较大的数据规模,目前已能处理节点数为十万级的网络。

使用说明可参考:资料来源:http://infotech.nju.edu.cn/wsci/form/Tool/summary.html

基于Web的科技文献分析工具综述
田宏桥 吴斌 / 北京邮电大学智能通信软件与多媒体北京市重点实验室 北京 100876
随着电子引文信息的爆炸式增长,为了帮助科研工作者从海量文献数据中发现研究热点、了解领域发展趋势,科研机构和商业集团开发了一系列基于Web的文献检索工具。近年来,伴随着数据挖掘技术和信息可视化技术在知识发现领域中的迅速发展,融合上述两种技术的文献分析工具已经被研发出来并获得了很好的用户反馈。文章首先阐述了传统的文献检索工具的功能及其存在的局限性,调研了融合可视分析技术的文献分析工具并总结其功能和特点以及为文献分析带来的新颖视角,介绍北京邮电大学通信软件工程中心研发的可视分析组件——VisLib及其实用场景,最后展望了科技文献分析工具的进一步发展方向。

基于科研合作网络演化的个体网络生命过程分析
王丁弘 赵奉英 吴斌 / 北京邮电大学智能通信软件与多媒体北京市重点实验室 北京 100876
将复杂网络的研究方法引入到科研合作网络的研究中,为分析和评价科研人员提供了一个新途径。文章以合作网络为背景,微观深入地研究了科研合作网络中个体成员的网络生命特性,从全局网络和局部社团演化的角度定量分析个体网络生命过程对网络发展的影响。文章以大量的科技文献数据为实验数据集,以网络演化为线索跟踪个体成员的生命过程,同时考虑网络演化中的普通成员和核心成员对社团演化的不同影响,定量分析演化特性和个体网络生命过程。数据分析证实了科研团队要持续不断地发展,既要不断吸纳新成员为科研团队注入新活力,同时又要有相对稳定的中坚力量维持着团队的科研方向。更进一步地,文章的研究方法可以扩展到对其他社会组织分析,追踪分析相关组织的发展趋势及关键人物对组织演化的影响

科研合作网络的重要作者发现
朱天 吴斌 王柏 / 北京邮电大学北京市智能通信软件与多媒体重点实验室 北京 100876
近年来,使用复杂网络理论对文献的科研合作网进行分析得到了广泛的研究。文章对DBLP数据库中1998年至2007年的作者合作数据构造科研合作网络,并且通过复杂网络的基本统计度量,如度、聚集系数等对网络的总体面貌进行了宏观上的描述。在微观层面,文章提出了高效的重要作者发现算法,能够从作者的合作数量以及合作范围对重要作者进行排名。通过分析科研合作数据作者的影响力,从而为科研人才评价提供参考。

机构合作网络的特征挖掘及演化分析
温婉婷 吴斌 王柏 / 北京邮电大学智能通信软件与多媒体北京市重点实验室 北京 100876
文章应用复杂网络的相关知识,对国内的医药学文献数据进行数据挖掘。以机构为研究对象,通过构建机构科研合作网络,对网络的静态参数、拓扑结构、动态演化进行挖掘分析,找出机构间科研合作网的静态特征,并以年为单位切分时间片,分析网络的动态演化特征。通过研究得出机构合作网络的静态参数,同时发现,机构科研合作网络有明显的局部化特征,它的主网络是一个小世界网络,具有无标度特性。机构的影响力和活跃度不仅体现在发文量上,同时也体现在与其他机构的合作程度上。

基于云计算的文献合作网络的社团划分及演化分析
杜雅红 白云龙 吴斌 / 北京邮电大学智能通信软件与多媒体北京市重点实验室 北京 100876
随着各领域科学研究的开展,文献数据与日俱增,关于文献数据的更深入的研究对于科研对象的评价与趋势分析具有重要意义。同时,随着分析方法的成熟和应用场景的延伸,文献的分析带给研究人员的一个挑战是如何在超大规模数据(PB级)中进行有效的挖掘。工业界和学术界越来越倾向于使用基于分布式密集数据计算模型,如MapReduce等,来进行大规模数据挖掘。文章在云计算平台上实现了文献数据的社团发现算法,并对学术会议的演化进行了分析。通过分析,可以清晰地看到活跃在学术会议中的科研合作团队的核心科研工作者,这对进一步了解学术会议研究方向及动态具有很强的指导性作用。