微信说科研&微言谈教育 教育专栏 > 微言谈教育专题 > 子民好好说 > 正文

科研评价改革的他山之石:《莱顿宣言》(The Leiden Manifesto for research metrics)

来源:中国教育信息化网
作者:李志民

《莱顿宣言》源于2014年美国佐治亚理工学院的公共政策教授Diana Hicks等在荷兰莱顿召开的一次国际会议上,提出的合理利用科学评价指标的七条原则,后来扩充为十条,并于2015年4月发表在《自然》杂志上。

“莱顿宣言”提出的十条原则包括,第一,量化评估应当支撑质化的专家评估,而不是取而代之;第二,衡量绩效应基于机构、团队和个人的科研使命;第三,保护卓越的本地化的相关研究;第四,保持数据采集和分析过程的公开、透明和简单;第五,允许被评估者验证数据和分析;第六,考虑发表和引用的学科差异;第七,对个人研究的评价应基于其综合作品的质性评价;第八,应避免评估指标的不当的具体性和虚假的精确性;第九,识别认清评价指标对科研系统的影响;第十,定期审查评价指标并加以改进。

全文如下:

《莱顿宣言》

(The Leiden Manifesto)

关于科研指标的莱顿宣言,Diana Hicks、Paul Wouters 及其同事督促用十项原则来规范科研评估

来源:http://www.leidenmanifesto.org/

十大原则:

1)量化的评估应当支持而非取代质化的专家评审

量化指标可以降低同行评议中的偏见并促进更为深入的审议。量化指标可以提高同行评议的质量,因为在没有充足信息的情况下评价别人是非常困难的。但是评估者的判断不应让位于数字。量化指标不应取代建立在充分信息基础之上的判断。评估者仍应对其评估负责。

2)科研绩效的考量应基于机构、团队、以及个人的科研使命

应当首先明确评估的目标,而所采用的指标也应切合这些目标。同时,指标的选择和应用的方式应该考虑更为广泛的社会、经济、文化环境。科学家有着各色各样的科研使命,着眼于探索未知的尖端基础研究和立足于解决社会问题的应用研究有着截然不同的任务。在某些情况下,评估者应该考虑研究的社会和经济价值而非其科学价值。世上没有一个评估方法适用于所有的情况。

3)保护卓越的本地化的相关研究

在很多地方,研究的卓越等同于在国际期刊上发表英文论文。比如,西班牙法律明文鼓励发表于高影响力的英文期刊的论文。然而期刊影响因子所依赖的 Web of Science数据库主要是以美国和英文期刊为主。这一数据库覆盖期刊的偏差对于社会和人文学科造成了尤为严重的后果,而在这些领域很多研究是关于本国或者当地的课题。在很多其他的领域也有偏重于本地化的题目,比如撒哈拉以南非洲的HIV流行病学。这些本地化的课题往往并不为高影响因子的英文期刊所青睐。那些在Web of Science数据库中取得较高引用率的西班牙社会学家往往从事于抽象模型或者分析美国数据。西班牙语期刊的论文则通常关注更为相关的本地课题:本地劳动法,老年人家庭医疗,以及外来劳工等等。只有基于高质量本地语言期刊的指标才能正确评价和推动卓越的本地化研究。

4)保持数据采集和分析过程的公开、透明和简单

数据库的建立应该遵循明确的规则,而这些规则应在评估之前就清晰阐述。这是以往数十年来相关学术单位和商业机构的惯例。而他们的数据处理的流程也发表在同行评议的文献中。这样透明的流程保证了复查的可能性。比如2010年荷兰莱顿大学科学技术研究中心(CWTS)所创建的一项指标引发了一场学术争论,而这一指标随后被修改。这一领域的新进机构也应遵守此标准。我们不能接受评估中的暗箱操作。对于指标而言,简单就是美,因为简单增强透明性。但简单化的指标也可能会导致偏颇的结论(参见原则7)。因此评估者应竭力保持平衡,采用的指标应足够简单明了但又不会曲解复杂的问题。

5)允许被评估者验证数据和分析

为保证数据质量,所有的被评估者应当有机会查证评估所用的数据是否准确全面地包括了他们的相关研究产出。评估者则应通过自行验证或者第三方审查来确保数据的准确性。大学可以在他们的科研信息系统中执行这一原则,并以此作为一项重要标准来选择信息系统提供商。精确和高质量的数据耗费时间和经费去搜集和处理,因此需要足够的预算。

6)考虑发表和引用的学科差异

最好能提供一套指标让不同的领域各取所需。几年前,一组欧洲的历史学家在全国的评审中得到了较差的结果,因为他们出版书籍而不是在被Web of Science索引的期刊中发表论文,另外他们不幸被划在了心理学系。历史学家和社会科学家往往要求学术评审考虑书籍和本国语言的论文,而计算机科学家则往往要求加入会议论文。不同领域的引用率也有差别:数学期刊的最高的影响因子大概是3,细胞生物学却高达30。因而相关指标需要根据学科来标准化,最可靠的学科标准化方法是通过百分位数:每一篇论文的得分取决于其在整个学科的被引次数分布中的位置(比如说最高的1%,10%,或者20%)。在使用百分位数方法时,个别极其高被引的论文将略微地提高其大学的排名,但在使用被引次数均值时却可能会将其大学的排名从中等拔到顶级。

7)对个人研究的评价应基于其综合作品的质性评价

年龄越大,H指数越高,即使是在没有新论文发表的情况下。H指数在不同的领域也有所不同:生命科学家可高达200,物理学家最高100,而社会学家最多只有20到30。这同时也取决于数据库:有些计算机科学家在Web of Science中的H指数只有10,但在Google Scholar中却有20到30。研读和评判一位学者的论文要远比仅仅依靠一个数字合适。即使在比较很多学者时,能够综合考虑多方面的信息更为适宜,比如个人专长、经验、活动、影响等等。

8)应避免评估指标的不当的具体性和虚假的精确性

科技指标不可避免会在概念上有些模糊和不确定,并且建立在一些很强但并不普适的假设的基础之上。比如说,对于被引次数到底代表了什么这一问题就存在很大的争议。因此最好能使用多个指标来提供一个更为可靠和多元的呈现。如果不确定性和潜在错误可以被量化,那么应该在发表指标结果的同时提供置信区。如若潜在错误率不可量化,那么研究人员至少不应盲目追求精确度。比如,官方发表的期刊影响因子精确到小数点后三位数,这样可以避免期刊之间打成平手。但考虑到被引次数所存在的概念上的模糊性和随机误差,实在没有必要在相差不大的期刊之间分个伯仲。在此情形下,避免虚假的精确度意味着精确到小数点后一位就已经足够了。

9)识别认清评价指标对科研系统的影响

科技指标改变研究人员的动机进而改变整个科研系统,对这样的结果我们应有充分的预期。这意味着一套指标总胜于单个指标,因为单个指标更易于被操纵,也更容易取代真正的目标成为驱动研究的指挥棒。举例来说,在90年代,澳大利亚政府根据各高校的论文数量来分配经费,而大学可以估算出一篇论文的经济价值:在2000年一篇论文大约可以换来 900 澳元(折合450美元)的经费。可以预料的是澳大利亚的高校发表论文数据显著增加,但多发表于低被引的期刊,意味着论文质量的下降。

10)定期审查评价指标并加以改进

研究的使命和评估的目标会随着时间而改变,科研体系也不停在变化演进。曾经有用的指标可能会变得不那么合适,而新的指标也会不停出现。指标体系也应随之调整。意识到不良后果后,澳大利亚政府在2010年推出了更为复杂的科研评估体系,而这一体系更为重视科研质量。

 


访谈视频
访谈嘉宾
分享
'); })();