2018科睿唯安“高被引科学家”
——目的和遴选方法

科睿唯安
科睿唯安

每年发布的科睿唯安“高被引科学家”名单,旨在遴选全球自然科学和社会科学领域最具影响力的研究人员。2018年11月发布的该名单共包含21个自然科学和社会科学领域的约4000位高被引科学家,以及近2000位在多个领域有杰出表现的高被引科学家。该名单着眼于近期的研究成果,因而选取了2006-2016年11年间Web of Science核心合集(Web of Science Core Collection)所收录的自然科学和社会科学期刊中的高被引论文进行分析,高被引论文即在同年度、同学科领域中引文影响力排在前1%的论文。

该名单的数据来源于科睿唯安InCites平台上的Essential Science Indicators(ESI,基本科学指标)数据库,采用ESI的21个按照期刊划分的大学科领域遴选,对于《科学》、《自然》等交叉学科的期刊,会依据对论文参考文献的分析,将论文逐一划分到对应的21个学科领域。高被引论文对同年发表的论文进行相互比较,因此这种基于百分位的筛选方法消除了较早发表论文相对于近期发表论文的引用优势。

在ESI学科领域领域中发表高被引论文的研究人员被认为是有影响力的,因此,能够发表多篇排名前1%的论文也被认为是具有卓越的影响力。这种分析方法比基于多年累计总被引频次的分析方法更可能使相对年轻的研究人员脱颖而出,这也是高被引科学家遴选的目的之一:我们希望在识别资深研究人员的同时,也能够彰显处于科研生涯早期和中期的研究员的成果。名单中各领域入选研究人员的数量取决于相关领域研究人员的总量,即2006年到2016年期间,该领域所有高被引论文中(姓名消歧后)的作者数量。各ESI领域在规模上有很大区别:在研究人员数量和高被引论文数量方面,临床医学的规模最大,农业科学、经济与商业以及药理和毒理学的规模最小。各领域作者总数的平方根决定了需要筛选的人数。

高被引科学家遴选的两个指标之一,是研究人员的高被引论文必须获得足够多的被引频次,使其在所属ESI领域的总被引频次排名位于前1%。符合该领域这一标准的高被引论文作者,会根据其名下的高被引论文数量进行排名。同时也会根据该领域所有高被引论文中经过姓名消歧的作者数量的平方根,来确定进入此名单的阈值。所有发表高被引论文数量超过文章数阈值的作者都可以进入名单,即使最终入选人数超过了平方根计算所得出的数量。

此外,为了弥补仅依据阈值进行遴选的不足,高被引论文数量低于阈值1篇,但其高被引论文的总被引频次能够使其排在按照阈值标准入选人员前50%的作者,也被列入该名单。科睿唯安的引文分析师们根据分析实践发现,这一调整方法能够有效识别有影响力的研究人员。

当然,可能还是会有许多拥有卓越成就和影响力的研究人员,未能通过上述方法被选入2018年高被引科学家名单。无论采用什么方法进行遴选,都可能存在上述现象。每种评估方法或每个系列指标,无论是总被引频次、h指数、相对引文影响力,还是平均百分位等等都强调了不同类型的表现和成就。这里我们遇到了大众对此类排名十分期待但通常难于解决的难题:即利用那些最佳且完美的绩效评估方法。诠释如我们这份顶尖研究者名录的唯一合理办法,就是完全了解数据和结果背后的方法,以及为何使用这个方法。基于这一认知,使用者最终可以判断结果是否与他们的需求或关注点相关。

 

具体方法

用于分析和遴选“高被引科学家”的数据源于基本科学指标(ESI)数据库,2006-2016年间包含的140,990篇高引用论文。按照ESI学科和出版年,每一篇论文的总被引频次排名位于前1%。想了解更多ESI高被引论文有关的信息,请查阅ESI帮助文件。

 

基本科学指标

ESI收录了“Web of Science”中的科学引文索引和社会科学引文索引中的文献,即科学以及社会科学的期刊文章。此分析进一步限于科研论文(article)和综述(review),不包括读者来信、更正通知以及其他文献类型。

 

分类

在ESI中,所有论文,包括高被引论文被划分到22个宽泛的领域(第22个领域为多学科领域,见下文)。ESI的每一种期刊都仅被划分到一个领域,并且在该期刊中出现的论文也同样被分配到该领域。对于多学科期刊如《科学》、《自然》等都会对其进行特别的分析。此类出版物中的每篇文章会被单独评估,包括对参考文献中引用的期刊领域归属进行分析。最后,将该论文重新归类到其参考文献中最频繁出现的领域。

 

最终名单

对于每个ESI领域,通过先进的聚类法对作者姓名进行消歧,计算簇的个数,每个簇代表一个单独的科研人员。计算每个领域里面簇(科研人员)的个数的平方根。用这个数字来判断每个ESI领域上榜研究人员的大概数目。在某一个领域中高被引论文排名的作者名单中,平方根数值的作者的论文数目决定了该领域入选高被引科学家榜单需要发表的高被引论文数的阈值。

如果一个作者发表的高被引论文数低于阈值一篇,但是其被引频次能令其排在按照阈值入选榜单的科研人员的前50%,这些作者也将入选。此外,入选者全部高被引论文的总被引频次必须达到2006年到2016年间ESI作者的总被引频次阈值,即在该ESI领域排名前1%。

例子:

 

增加了具有跨领域影响力的研究人员

对过去《高被引科学家》名单的争议在于忽视了对具有跨领域影响的研究者遴选:研究者可能在几个不同的领域发表多篇高被引论文,但是在任何单个领域均不能达到入选所需要的高被引论文的阈值。我们十分欢迎这些有意义的争论。因此为了找到与单一领域具有同样影响的研究者,我们规范了跨领域高被引论文的分值计算,这样一篇来自临床医学与一篇来自农业科学的论文就具有相同的权重。为了达到这个目的,我们根据每个领域的阈值来分别计算高被引论文分值,如此一来,一篇农业科学的论文就比临床医学领域的论文得分更高(农业科学领域入选需要发表的论文数阈值低于临床医学)。如果,我们收集了一位研究者在所有领域的高被引论文,发现总的论文分值大于等于1,这表明该作者的影响力类似于那些单领域影响力研究者。被引频次使用相同的方法计算,作为筛选的第二个标准。

例子:

2006 – 2016年间,虚构的研究员约瑟夫·萨万特在四个ESI领域发表了15篇高被引论文。在领域6中有七篇论文,领域筛选阈值为8,为萨万特赢得了0.875(或7/ 8)分。在领域14中有三篇论文,领域筛选阈值为6,得分0.5分。每个领域中的论文分值加在一起能得出1.67的跨领域论文分值。1分及更高的分值表示该研究者的影响力相当于某一特定ESI领域中入选的研究者的影响力。高被引研究者的第二个筛选标准是在某一领域的引用量排名前1 %。同样,不同领域的被引频次以类似于论文的方式进行分类。在上面的例子中,作为一名有影响力的跨领域研究人员,萨万特教授获得了超过五倍的被引频次。

 

例外

上述方法适用于除物理和空间科学(天文学和天体物理学)以外的所有ESI领域。物理学和空间科学的许多高被引论文会分别涉及高能实验和大型团队太空任务,通常有数百个作者。使用此计数方法会生成一份只包括高能物理学家或参与大型太空团队任务的物理学家的名录,将其他子领域的物理学家排除在外。因此,我们决定在审议时删除物理和空间科学类别中有多于30个机构地址的论文。这解决了高能物理或太空任务大型团队的过度加权问题。

 

排除

最后,我们在分析高被引论文时排除了撤稿的论文。此外,那些被研究机构、政府机构、基金资助机构或出版商在正式通告中认定有不当科学行为的研究人员也被排除在高被引研究者之列。

 

Clarivate科睿唯安

加速创新