随着网络化、数字化时代的到来,科学研究的定量化趋势已经日益明显。任何一门科学,无论是自然科学还是社会科学,定量化、精确化都是其真正发展并走向成熟的标志。情报学作为一门介于自然科学和社会科学之间的综合性边缘学科,无论是从自然科学还是从社会科学的角度来看,其研究方法朝着定量化或数学计量化方向发展也已成为一种必然趋势[1]。而早在20世纪80年代,英国著名情报学家布鲁克斯()就曾指出:“情报学如果不实现定量化,它将是一堆支离破碎的技艺,而不会成为科学[2]。”
目前,科技情报定量化研究的一般方法主要包括统计分析,如作者/机构发文量统计、词频统计、引文统计等,以及目前很多研究人员都感兴趣的、以共现分析为基础的同被引分析、文献耦合分析、共词分析等。俗话说“巧妇难为无米之炊”,而“工欲善其事,必先利其器”,本文从分析工具的角度,以情报定量研究的三个主要方面(数据来源、数据分析、结果可视化)为切入点,对科技情报的定量化研究趋势作一些探索与思考,希望对我们未来的研究有所帮助。
1 数据来源
定量化研究是针对可计量研究对象,利用某些定量化研究资源,采用一定的定量研究方法和手段,寻求将数据定量表示以揭示数据之间的关系和规律的一种研究方法[3]。对于情报的定量化分析而言,必须得有与情报相关的数据。长期以来,科技情报定量分析中使用最多的一个文献数据库就是ISI Web of Knowledge(WoK),特别是其核心库Web of Science(WoS,包括三大引文索引数据库 SCIE、SSCI、A&HCI),以及被WoK有效整合的DII、ESI等。
尽管WoK多年来一直致力于提供科技文献信息方面的服务,但是,其自身仍然存在很多不足。以WoS为例,其本身收录范围有限(限于核心期刊)、非英语文献收录也较少、被引文献作者仅限于第一作者[4]。因此,很多学者开始转向其他数据源,如Scopus、Goolge Scholar等。Scopus由 Elsevier于 2004年推出,号称世界最大的文摘和引文数据库;Google Scholar由Google实验室在2004年推出,凭借Google强大的网页索引量,Goolge Scholar可以说是当前世界上网络学术资源最丰富的索引库。
可是,由于发展历史的差异,目前适用于WoK的工具很多,而适用于Scopus、Google Scholar的工具则似乎很少。于是,荷兰阿姆斯特丹大学的科学计量学家 Loet Leydesdorff设计开发了几个小工具[5]:(软件名称),将来源于Scopus的数据文件转换为标签格式的WoS数据文件;,将来源于Scopus的数据文件转换为数据库文件;,将来源于 Google Scholar的数据文件转换为数据库文件。
如此以来,借助这几个数据格式转换工具,我们就可以利用其他工具(如数据库工具SQL Server,适用于WoK的工具)对来源于Scopus、Google Scholar的数据开展进一步的分析。需要注意的是,这几个工具均基于DOS开发而来,使用者需要了解并掌握DOS方面的一些知识,可能更有利于工具的使用。
2 数据分析
从文献数据库获取数据之后,就要对其进行分析。一般而言,分析过程分为两步:第一步是一次分析,包括基础数据的抽取、统计分析、矩阵生成等;第二步是二次分析,在一次分析的基础上进行加权统计、数量分布统计以及聚类分析等。
2.1 一次分析 对于文献数据的一次分析而言,瑞典科学家Persson开发的Bibexcel[6]和澳大利亚墨尔本大学的 Anne-Wil Harzing教授设计的 Publish or Perish[7](简称PoP)是两个可以免费使用的分析工具。Bibexcel除可对来源于 WoS、DII、Medline等数据库的数据相关知识单元(作者、关键词、参考文献等)做初次统计分析外,还可产生知识单元的共现关系矩阵。PoP则可以对Goolge Scholar的数据进行文章总数、总被引次数等的统计,同时,PoP还可进行诸如文章的篇均被引次数、个人的论文平均数及其平均被引次数、H指数、G指数等的计算(属于二次分析,但PoP已集成实现)。
目前,针对文献数据库Bibexcel的使用十分广泛,但从分析过程来看,Bibexcel的数据清洗功能似乎并不是很强大,如果这一步产生重大问题(如作者或机构的不同拼写形式造成的误差),那么将严重影响以后的分析,这应该引起大家的注意;针对网络数据源Goolge Scholar的PoP旨在帮助学者个人以最佳的方式展示他们的研究在ISI之外的影响力,尽管PoP可以通过Google Scholar进行更为广泛的综合性搜索,但是该工具开发者Anne-Wil Harzing教授不建议在其他领域工作的学者个人过渡地信赖其结果,除非能够在 ISI和 Scopus中得到核实[7]。 上一篇:重大突发事件决策方法研究决策系统 下一篇:没有了