业内信息

论文作者特征的期刊影响力预测

2017-05-26 来源:《中国科技期刊研究》

  关键词:作者特征  期刊影响力  相关分析  曲线回归
  
  作 者:李秀霞   曲阜师范大学传媒学院,山东省日照市烟台路80号 276826;邵作运  曲阜师范大学日照校区图书馆,山东省日照市烟台路80号 276826
  
  摘 要:【目的】 构建一组反映期刊内部特征信息的作者特征空间向量,以拓展期刊影响力分析方法。【方法】 以图书情报学领域18种核心期刊2011年第1期的380篇论文为研究对象,选取其中3/4的文献为训练样本,构建基于作者特征的期刊影响力预测模型,以剩下的1/4论文为测试样本,检验预测模型的有效性。【结果】 实验发现,期刊影响力预测模型与4年后对应期刊的影响因子具有较好的吻合度。【结论】 说明由期刊作者特征研究期刊影响力是可行的,为研究期刊影响力提供了一种新方法。
  
  学术期刊作为知识媒介在知识交流与传播中起着重要的推动作用。学术期刊影响力是指在一段时期内学术期刊对其所处科研领域内科研活动的影响范围和影响深度[1]。对学术期刊影响力的评价一直受到学者们的关注,已有的期刊影响力评估指标如影响因子、总被引频次、h指数、z指数、g指数均是从期刊的外部引用特征评估期刊的影响力,而且评估数据需要等期刊刊出一段时间后方能获取到,在时间上具有延迟性。期刊论文的作者基本都是论文的直接参与者,作者的研究内容和方法、研究思想和观点直接反映了期刊的属性特征,因此,作者声誉的高低在一定程度上反映了论文的学术水平,代表着学术期刊在科学活动中的价值和学术地位。一般来说,作者更倾向于引用对他们研究有帮助且出自著名学者的论文,而作者的声望一般通过其科研成果的产出量和被引用量来体现。本文拟用作者论文产出量、作者论文被引量、论文作者数量等来表征期刊论文的作者特征。对期刊而言,高影响力作者越多,其刊载论文的质量越高,期刊的影响力也就相应越高。因此,从理论上讲,论文的作者特征可以在一定程度上预测期刊的影响力。
  
  目前,国外已有不少学者研究了作者特征对期刊引文的影响。如1983年Stewart[2]实证研究了地球物理学领域中作者声誉对引文数量的影响;Dalen等[3-4]认为作者的一些特征是引用分配的决定因素;Bornmann等[5]比较系统地梳理了论文被引频次的影响因素,如作者国籍、机构;Borsuk等[6]利用广义线性模型估算了第一作者和作者数量对被引频次的影响;Danell[7]发现根据作者特征可以预测科学成果的影响力;Yu等[8]通过分析论文作者特征、引文特征和期刊特征等,预测论文未来的引用频次,发现论文第一作者之前发表论文的总被引量与之后论文的引用率有一定的相关性。国内,研究作者特征对期刊引文影响的论文相对较少,代表性的研究有:邱均平等[9]通过实证研究,证明了论文发表中的马太效应,即:越是出名的作者越容易获得在众多核心期刊发表的机会;侯剑华等[10]进一步证实了发文作者中的马太效应,作者的声誉可能会影响期刊论文被引用的总数;盛丽娜[11]探讨了利用作者机构分布情况评价科技期刊学术影响力的可行性、科学性和合理性;王海涛等[12]利用负二项回归模型研究了论文作者数量对论文被引频次的影响规律;周春雷[13]提出利用引文数据库获取反映专家评价意见的客观数据,通过期刊发文z指数和期刊被引z指数评价期刊的学术声誉。
  
  综上所述,无论是分析论文的被引频次,还是分析期刊的影响力,学者已经开始关注作者因素及其作用。已有研究为深入认识到作者特征在期刊影响力中的作用并提供了宝贵性的指导。对已有研究文献的梳理分析,发现已有研究或是就作者的某一特征来研究论文的被引频次,或是将作者的某一特征与文献特征、期刊特征结合起来研究论文的影响力,或根据知名作者在期刊的发文量与被引量来评估期刊的影响力,研究均具有一定的时滞性。鲜有综合作者的多种特征指标对期刊影响力进行预测的研究。本文拟在前人研究基础上,通过选取论文作者的多维特征来构建作者特征空间向量,探析作者多维特征与期刊影响力的相关性,并以定量方式给出二者之间具体的影响关系,以期通过这种定量关系预测未来期刊的影响力,为科研人员和期刊编辑人员分析论文质量、预测论文被引率提供决策参考。
  
  1 作者特征空间向量和研究假设
  
  1.1 作者特征空间向量
  
  杨添安等[14]证实了高水平作者对期刊学术水平和影响力的提升起着十分重要的作用。高水平作者通常由其发文量、论文总被引次数、篇均被引次数和h指数等指标来衡量。故选取以下的作者特征:作者数量x1、作者h指数(包括所有作者h指数的最大值x2、第一作者的h指数x3)、作者发文量(包括所有作者的发文量的最大值x4、第一作者的发文量x5)、作者论文被引频次(包括所有作者被引频次的最大值x6、第一作者论文的最大被引频次x7、所有作者中总被引频次的最大值x8、第一作者的总被引频次x9 和第一作者的篇均引频次x10)。将上述10个作者特征描述为一个空间向量X,定义如下:
  
        X ={x1,x2,ˑˑˑxi,ˑˑˑ},
        xi 代表第i 个作者特征,i=1,2,ˑˑˑ,10。
  
  (1)作者数量。一项研究被提出后,往往需要经历已有研究分析、新研究过程设计、问题论证与分析、数据获取、数据处理、结果分析与检验等过程,过程复杂、工作量大,而且随着社会科学研究的深入发展,学科间的交叉融合日趋加剧,论文合作现象日益明显。多位作者合作发表的研究论文可以在知识结构方面相互取长补短、实现优势互补,发挥群体智力和优势,有助于提高研究水平,可获得较多的引用次数[15]。当然,由于学术功利心的趋使,不可避免存在挂名作者的现象。因此,作者数量对被引频次有一定的影响,但不一定存在作者数越多,论文引用率越高的规律[16]。为综合考量作者因素对期刊影响力的作用,本文将作者数量归入作者特征之一。
  
  (2)第一作者。一般来讲,第一作者是论文的设计者和主要参与者,同时又是作品的直接责任者,享有更多的权利,承担着更多的义务[17-18]。因此,论文第一作者的科研水平直接体现了论文的科研水平和质量,影响着期刊论文未来的被引量。
  
  (3)作者发文量。发文量是指作者发表文献数量的总和,是描述作者学术产出的指标之一。高水平作者一般具有较高的学术产出,而且,高水平作者通过为核心期刊提供与其科研成果相关的论文,不断推动核心期刊的进步与发展。 邱均平等[19]发现高发文量是作者影响力的基础,非高产作者成为高影响力作者的可能性极低。杨添安等[14]研究表明高水平作者发文量占总体发文量比例和高水平作者发文被引次数占总体被引次数比例较高时,期刊h指数和影响因子的数值往往也高。所以,作者的发文量与期刊影响力之间一定存在某种特定的关联性。
  
  (4)作者论文的被引频次。被引频次是指科研成果被引用的次数,该指标已被广泛用于评估论文、专利、期刊、作者、研究团队、科研机构等的科学贡献或价值[20]。论文的被引频次是其学术质量及学术影响力的重要评价指标,邱均平等[21]认为唯有具有一定的被引频次,期刊、作者、机构、论文等的价值才会得以体现。反映被引频次的指标有很多,《中国科技期刊引证报告》中的被引频次指标有总被引频次、影响因子、h指数、即年指标等。考虑到对一般作者而言,其论文的当年被引频次通常较少,没有选取即年指标。
  
  1.2 研究假设
  
  本研究基于以下两个假设:
  
  (1)期刊影响力与论文的质量高低相一致。期刊的学术质量取决于其发表论文的学术质量。一般来说,高影响力的期刊具有较高的“显示度”和“可利用度”,故其吸引相关学科优秀论文的能力较强,并因此导致其稿源相对较多,进而对所录用的论文的筛选更为严格[20],所以相对同类低影响力的期刊而言,高影响力的期刊所刊载的相同研究领域的论文应具有更高的学术质量。论文的学术水平高、学术影响大,其被引用次数才会多。因此,可以设定期刊影响力与其刊登论文的学术质量之间互为正向关系。
  
  (2)论文质量的高低与作者声誉正相关。优质的论文要求在研究思想观点、研究方法和研究内容上具有独创性,具有思想、方法、实验、结果、分析等环节的完整性,而且论证过程逻辑思维严密、语言规范生动。一篇高质量的论文集中反映了作者丰厚的知识积累、高度的概括总结能力、系统性的综合推理能力及前瞻性的视野和敏锐的判断力,其研究成果将对研究领域产生深远影响[10]。这种影响一般体现在论文的被引量上,高质量的论文被引频次一般较高,而作者论文的被引频次反过来又体现了作者声誉的高低。从这个意义上讲,论文质量的高低与作者声誉具有显著的相关性。
  
  本文利用Microsoft Excel工具进行数据统计,用统计分析工具SPSS19.0完成作者特征与期刊影响力的相关性分析和基于作者特征的期刊影响力回归预测分析。
  
  2 期刊作者特征与期刊影响力关系
  
  2.1 数据来源及处理
  
  研究表明,作者更倾向于引用3或4年前的文献,越早或者越晚的文献都越不容易被引用[22]。为利用作者特征预测期刊的影响力,选取2011年的期刊论文为研究对象,相应的论文作者特征为自变量,数据来自中国知网(CNKI)数据库;选取2014年的期刊影响因子为因变量,数据来自中国科技期刊引证报告(2015年核心版)。
  
  作者特征数据的具体获取过程为:首先根据中文社会科学引文索引(CSSCI)2011年的来源期刊目录,选定刊登在图书情报、档案学领域的18种核心期刊2011年第1期的论文为数据样本,每种期刊20篇(《图书馆建设》40篇),共380篇。
  
  在CNKI数据库高级检索界面“主题”中输入一篇样本论文的题目,检索论文发表的时间、论文作者及单位,记录论文作者数目;然后删除“主题”中的论文题目,将检索时间设置为该论文发表日期的前一日,对论文的每位作者逐一设置作者和作者单位(对改变工作单位的作者,修改作者单位后进行多次检索),检索作者在本论文发表之前的所有论文;最后将检索到的论文按被引量降序排列,统计每位作者发表论文的总量、每篇论文的被引量、所有论文中的最大被引量、被引总量和作者h指数,以及每篇论文所有作者中的最大发文量和最大被引量等,作为作者特征指标的原始数据。
  
  380篇论文的被引量(统计时间为2014年12月16日)如图1所示。从图1可以看出,每篇论文被引量y 的分布表现出长尾特征,被引量在8次以上的仅占22.1%,近80%论文的被引量分布在0~7次之间。因此,380篇论文的被引频次符合文献分布集中分散的“二八定律”,说明本研究选取的数据是有效的。
  

图1 论文的被引量分布
  
  统计380篇论文对应上述10个作者特征指标x1~x10的数值,为消除论文作者的各个特征在数量上的差异,对所有指标数值进行了归一化处理,结果见图2(部分数据),以此作为作者特征与期刊影响力之间相关分析的数据基础。
  

图2 期刊影响力(y)与作者特征(x1~x10)归一化数据
  
  为便于后续的建模实验和模型检验,从每个期刊的论文中随机选取3/4(285篇论文)作为训练样本,即从每个期刊的20篇论文中随机选取15篇(从《图书馆建设》期刊的40篇论文中随机选取30篇),剩余的1/4(95篇论文)作为测试样本。对训练样本和测试样本都作如下处理:(1)就每种期刊所有论文对应的每个作者特征指标xi 求和后取均值作为该期刊对应指标xi 的值,这样就将“论文-作者特征”之间的关系转变为了“期刊-作者特征”之间的对应关系;(2)将所有期刊的影响因子y 和作者特征指标xi 作归一化处理。将完成上述处理的训练集样本和测试集样本分别作为构建预测模型和检验预测李秀霞,邵作运.基于论文作者特征的期刊影响力预测模型有效性的数据样本。
  
  2.2 期刊作者特征X 与期刊影响力y 的相关分析
  
  相关分析是研究现象之间是否存在某种依存关系,并对具有依存关系的现象探讨其相关方向及相关程度的一种统计方法[23]。为探析作者不同学术特征与期刊影响力的相关性,将表1数据导入SPSS19.0,选用斯皮尔曼相关系数来测量期刊影响因子y 和10个作者特征x1~x10的相关关系,结果如图3所示。
  

图3 作者特征(x1~x10)与期刊影响力(y)之间的相关性
  
  由图3发现,每个作者特征与y 之间、不同作者特征之间的相关系数均有较大的差异。如作者数量x1 与y 之间,x1 与其他作者特征指标之间的相关系数均较小,说明作者数量与论文的被引量关系不大,对期刊影响力的作用极小。而第一作者的总被引量x9 与第一作者的h指数x3、所有作者的最大发文量x4、第一作者的发文量x5、所有作者的最大被引量x8 之间的相关系数均在0.9以上,说明上述几个作者特征之间具有较高的相关性。但这几个指标与期刊影响因子之间的相关系数并非一致,有的较高(如x3、x9 与y 的相关系数分别为0.577、0.586),有的较低(如x4、x5 与y 的相关系数分别为0.074、0.026),说明相关的作者特征对期刊的影响力有较大的差异。因此,在分析作者特征对期刊的影响力时,不能因为作者特征具有较高的相关性而用其中一个作者特征代替其他的作者特征,还要通过其他的分析方法对作者特征进行衡量。
  
  同时还发现,10个作者特征中,第一作者h指数x3、所有作者中的最大被引频次x6、第一作者的总被引频次x9 与期刊影响因子y 之间的相关系数分别为0.577、0.546、0.586,比中间值0.5稍高,在0.05的水平上属于显著相关,表明三者对期刊影响力会产生一定的影响。在所有作者特征中,第一作者的篇均引频次x10与期刊影响因子之间的相关系数最高,为0.698,且在0.01的水平上显著相关,表明第一作者论文的篇均被引频次与期刊影响力有较强的相关性,会对期刊影响力产生较大的作用。
  
  2.3 论文作者特征X 与期刊影响力y 之间的回归分析
  
  以训练样本数据为研究对象,选取与y 具有较高相关性的特征x3、x6、x9、x10进行回归分析,实验发现x3、x6、x9、x10与y 之间均不存在线性关系。为了更合理地解释这4个特征,选取了曲线回归分析方法。利用SPSS19.0将期刊影响因子y 分别与x3、x6、x9、x10进行曲线拟合(包括线性、二次多项式、三次多项式、对数、幂、指数等),获取期刊影响因子y 分别与这4个特征对应的多个曲线方程的决定系数R2 值,见表1。R2 越大说明拟合效果越好。实验发现,期刊影响因子y 仅与x3 10有较高的拟合决定系数,决定系数R2 为0.916,调整后的拟合决定系数R2 为0.813,标准残差均值为0.001,y 与其他指标拟合曲线的决定系数均在0.7以下。
  
表1 作者特征(x3、x6、x9、x10)与期刊影响力(y)之间的决定系数
曲线拟合方式 x3      与y之间的R2 x6      与y之间的R2 x9      与y之间的R2 x10与y之间的R2
线性 0.589 0.339 0.445 0.619
对数 0.695 0.379 0.627 0.817
倒数 0.527 0.373 0.434 0.602
二次 0.672 0.400 0.591 0.763
三次 0.693 0.401 0.686 0.916
0.642 0.446 0.618 0.714
指数 0.656 0.394 0.622 0.681
  
  期刊影响因子y 与x10之间的相关系数最高,说明用x3 10预测期刊影响力是合理的。由统计分析给出的模型系数得到预测模型为:y=0.004x3 10+0.284。通过多次试验,对模型做了进一步修正,修正后的预测模型为:y=0.004x3 10+0.925。
  
  2.4 模型检验与评估
  
  为检验上述预测模型的有效性,以95篇论文为测试样本,利用预测模型y=0.004x3 10+0.925预测18种期刊的影响力。并将预测值与2014年对应期刊的影响因子进行对比,结果如图4所示。
  

图4 曲线回归预测模型的预测效果
  
  由图4发现,多数期刊的预测结果与4年后期刊的影响力水平在一定程度上吻合,预测吻合度约68%,根据鲍玉芳等[24]给出的论文被引频次的预测效果一般在60%~70%之间,少数预测效果好的模型可以达到90%,说明本文预测效果可以接受。
  
  预测结果存在误差的原因可能是:(1)本研究是基于两个假设“期刊影响力与论文的质量高低相一致、论文的质量高低与作者声誉呈正相关”。不能否认,论文的研究类型不同(比如有的论文属于技术研究,有的论文属于应用研究),会导致相同质量水平的论文被引频次存在差异,甚至出现高质量的论文被引频次却较低的现象。这是论文的固有属性造成的被引量差异导致的期刊影响力之间的差异;而且也不能认为声誉低的新生研究力量就不会有高质量论文的产出。(2)指标x10是指作者的篇均被引次数,有的作者可能发文量较大,但仅有少数论文被引频次较高,致使其篇均被引次数降低。(3)由于选取的样本仅仅是图书情报学18种CSSCI期刊2011年第1期论文,无论是训练样本还是测试样本都存在选取范围小、数量少的弊端。
  
  3 结语
  
  已有的对期刊影响力的研究多是根据期刊的发文量、引文量等期刊外部特征展开,本文提出了一种综合作者多种特征指标对期刊影响力进行预测的方法。该方法不仅考虑到了期刊的内生因素,还弥补了已有研究具有时滞性的不足。
  
  本文在已有研究成果的基础上,分析并构建了论文作者特征空间,以图书情报学18种CSSCI期刊2011年第1期380篇论文为样本,通过统计其作者特征数据,利用相关分析发现了作者特征与期刊影响力的相关性,通过曲线回归分析,给出基于作者特征的期刊影响力预测模型。结果发现:(1)论文第一作者的h指数、所有作者被引频次的最大值、第一作者发表论文的总被引频次、第一作者发表论文的篇均引频次与期刊影响因子之间具有较高的相关性,说明上述四种作者特征对期刊影响力具有显著的影响,其中第一作者发表论文的篇均引频次x10对期刊影响因子的影响最大。(2)可以利用作者特征之一——“第一作者发表论文的篇均引频次”预测期刊的影响力,通过实验验证,预测模型与论文被引高峰期的期刊影响因子有一定的吻合度。
  
  由于本文研究对象仅选取了图书情报、档案学的18种核心期刊,文献也只选取了这18种期刊的第1期论文,期刊学科类别单一、数据量较少,因此得出的模型可能不够稳定;另外,由预测模型得到的预测值与期刊2014年的影响因子差异最大的期刊是《中国图书馆学报》,利用同样的数据进行实验,发现用第一作者h指数的对数值lnx3 来预测该期刊的影响力,得到的预测结果与该期刊的影响因子吻合程度较高,但用lnx3对其他期刊的影响力进行预测,其预测效果却较差。这也意味着一些期刊的影响力预测模型需要独立构建,即通过分析某期刊以前论文作者的特征来构建该期刊的影响力预测模型,这样得到的预测效果或许更好。相关研究将在后续进行。
  
  参考文献
  
  [1] 何学锋,彭超群,张曾荣.论科技期刊学术影响力的评估[J].中国科技期刊研究,2002,13(5):400-401.
  
  [2] Stewart J A.Achievement and ascriptive processesin the recognition of scientific articles[J].Social Forces,1983,62(1):166-189.
  
  [3] Van Dalen H P,Henkens K.How influential are demography journals? [J].Population and Development Review ,1999,25(2):229-251.
  
  [4] Van Dalen H P,Henkens K.What makes a scientific article influential? The case of demographers[J].Scientometrics,2001,50(3):455-482.
  
  [5] Bornmann L,Daniel H D.What do citation counts measure? A review of studies on citing behavior[J].Journal of Documentation,2008,64(1):45-80.
  
  [6] BorsukR M,Budden A E,LeimuR,etal.The influence of author gender,national language and number of authors on citation rate in ecology[J].Open Ecology Journal,2009,2(1):25-28.
  
  [7] Danell R.Can the quality of scientific work bepredicted using information on the author′strack record? [J].Journal of the American  Society for Information Science and Technology,2011,62(1):50-60.
  
  [8] Yu T,Yu G,LiP Y,etal.Citation impact prediction for scientific papers using stepwise regression analysis[J].Scientometrics,2014,101(2):1233-1252.
  
  [9] 邱均平,周春雷.发文量和h指数结合的高影响力作者评选方法研究——以图书情报学为例的实证分析[J].图书馆论坛,2008,28(6):44-49.
  
  [10] 侯剑华,刘波.期刊评价研究产出中的马太效应[J].中国科技期刊研究,2015,26(9):992-996.
  
  [11] 盛丽娜.作者机构分布情况在科技期刊评价中的应用[J].中国科技期刊研究,2012,23(4):585-588.
  
  [12] 王海涛,谭宗颖,陈挺.论文被引频次影响因素研究——兼论被引频次评估科研质量的合理性[J].科学学研究,2016,34(2):171-177.
  
  [13] 周春雷.期刊评价中新型专家评审指标探讨[J].图书情报工作,2012,56(16):71-74.
  
  [14] 杨添安,阮学平,孙灵芝,等.我国图书馆学情报学核心期刊高水平作者分析[J].情报杂志,2011,30(2):29-32.
  
  [15] Montpetit E,Blais A,Foucaul tM.What does it take for a Cnadian political scientist to becited? [J].Social Siencec Quarterly,2008,89(3):802-816.
  
  [16] 肖红,袁飞,邬建国.论文引用率影响因素——中外生态学期刊比较[J].应用生态学报,2009,20(5):1253-1262.
  
  [17] 李凤芹.中文生态学论文署名中的第一作者与通信作者/责任作者[J].中国科技期刊研究,2010,21(4):530-532.
  
  [18] 薛镭.关于学术论文第一作者的署名问题[J].编辑学报,2003,15(l):33-34.
  
  [19] 邱均平,周春雷.发文量和h指数结合的高影响力作者评选方法研究——以图书情报学为例的实证分析[J].图书馆论坛,2008,28(6):44-49.
  
  [20] 刘勇.论用期刊影响因子评价论文作者的逻辑前提与局限性[J].编辑学报,2007,19(2):152-153.
  
  [21] 邱均平,宋艳辉,杨思洛.基于期刊、作者、机构被引分析的学术评价比较研究——以引文索引库“CSSCI”与“CCD”为例[J].情报资料工作,2011,32(5):14-17.
  
  [22] 王海涛,谭宗颖,陈挺.论文被引频次影响因素研究——兼论被引频次评估科研质量的合理性[J].科学学研究,2016,34(2):171-177.
  
  [23] 周爽,朱志洪,朱星萍.社会统计分析:SPSS应用教程[M].北京:清华大学出版社,2006.
  
  [24] 鲍玉芳,马建霞.科学论文被引频次预测的现状分析与研究[J].情报杂志,2015,34(5):66-71.
  
  作者贡献声明:李秀霞:提出研究方案,负责实证分析和论文撰写及修改;邵作运:数据收集及处理,程序调试及论文结构调整。















国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号