【作 者】李思经、王健:中国农业科学院;宋立荣:北京联合大学应用文理学院
【摘 要】[目的]对科学数据共享领域科学数据出版的现状进行详细的分析,并提出一些对策建议,以期为相关部门进行科学数据出版管理提供借鉴和参考。[方法]采用文献调查法、比较法和归纳法归类分析科学数据出版的优势、科学数据共享中推进科学数据出版的机遇和挑战,并在此基础上就科学数据共享中如何更好发展科学数据出版提出几点对策建议。[结果]科学数据出版在科学数据共享中已成为必然趋势,本研究提出一些发展的对策建议,包括但不限于以下几点:制订促进科学数据出版政策、鼓励科学数据出版试点和合作、探索有效的科学数据出版模式、支持建立专业性数据仓储中心、完善科学数据出版标准、规范数据引用和数据评价。[结论]科学数据出版成为推动科学数据开放共享的有效方式之一,已受到高度重视。我国应积极探索有效的科学数据出版的途径,创新数据出版模式,充分发挥科学数据的复用价值。
【关键词】科学数据 ; 科学数据出版 ; 出版模式 ; 科学数据共享
早期科学数据出版是期刊机构在发表论文时为了防止科研数据造假,保证学术论文结论与数据的可再现性以及数据被复用[1],要求作者将相关数据以附件形式进行出版。但近几年,随着科技的飞速发展,科学数据在数据密集型科研范式的科研活动中已成为越来越重要的支撑要素,成为科研活动的主要产品。在此情形下,科学数据出版日渐由期刊出版商驱动的以附件形式发表的传统科学数据出版拓展到科研领域众多主体协同合作、共同推动的独立数据论文发表的科学数据出版方式,并成为促进科学数据共享的有效方式之一,受到数据共享领域和出版界的高度重视。
这种科学数据出版是对“数据及其信息”进行“出版”,由“提交数据、质量评审、发表数据信息、存储数据,以及对数据引用和评价”等关键环节构成基本的数据出版体系[2]。可以说,科学数据出版强调了以数据使用者为导向、以各类出版主体为纽带、以数据客体内容为基础,以服务策略为保障的活动[3]。它在一定程度上有助于解决过去科学数据共享实施中遇到的瓶颈问题,如数据版权如何确定、数据成果如何确认、数据引用如何认可等[4]。尤其2020年3月国家发布的《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》),将数据纳入生产要素范围,提出“加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值”[5]。数据的开放共享及开发利用被提升到一个新的高度。为此,国内不少期刊出版社、数据中心等机构正积极探索新型数据出版方式来提升数据再利用价值。但由于缺乏清晰的数据出版策略和可持续的运行模式,目前国内一些数据出版仍处于探索阶段。为此,有必要梳理我国在科学数据开放共享中进行科学数据出版的可行性、存在问题和应对策略等,为相关机构进行科学数据出版管理提供参考。
1 科学数据出版成为推动科学数据开放共享的主体力量
目前,无论是科学数据共享实践,还是理论研究,都将科学数据出版作为推动科学数据开放共享的有效方式之一,受到重视。
1.1 科学数据出版在科学数据开放共享实践中已成为重要的传播方式之一
传统论文出版模式经过多年的发展,形成了由期刊引用、科研诚信、学术“奖罚”、成果版权确认、运行机制等要素构成的学术传播生态体系,保证了学术论文的质量。而科学数据出版采取传统学术出版方式,将数据视为知识创造链条的一部分,以“数据”为核心,以“数据的信息”为内容,通过同行评议、专业编辑质量把关等,从源头保证了数据的质量。当这些高质量的数据资源积累到一定的数量规模后将产生聚合效应,从而产生巨大的潜在价值[6],并将数据出版、数据引用和数据评价很好地关联起来,借助于传统出版的成果确认机制较好地体现出数据贡献者的学术成就[2]和智力投入,促进科学数据与学术论文之间关联、融合及知识挖掘。
科学数据出版与传统科学数据共享体系形成有效的互补关系,通过数据主体自发共享和传统的政府主导开放共享行为共同推动我国科学数据开放共享。这是因为传统的“政府主导”的科学数据开放共享主要强调国家财政支持的科研项目产生的科学数据资源的强制汇交和共享,关注科学数据的公共物品属性,但忽视了其多重属性,忽略了科研机构或人员的智力投入等,容易造成内在动力不足,使得科学数据提交质量、资源类型及数量等都受到较大影响。而科学数据出版参照了期刊出版传播体系的生态系统,是以“数据”为核心,借用期刊的引用、评价系统探索建立数据引用、数据评价以及数据出版的完整体系,以此开展数据注册、数据管理、数据存储、同行审议及出版工作[7]。借助于传统出版体系的完备性与持续运行机制,从机制、传播周期、传播路径等方面体现其优势,确保科研贡献者的知识产权及成果认可,使科学数据出版形成自我持续运行的机制。可以说,科学数据出版为科学数据服务共享提供新的机制、新的途径。
1.2 开放共享领域的数据出版研究已受到广泛关注
目前关于科学数据出版的研究文献逐年增多。国内相关研究集中在概念辨析[8]、现状分析[9]、出版模式比较[10]、出版政策制订[11]、出版流程构建[12]、同行评审及质量控制[13]、关键问题分析[14]、对策建议[15,16]、案例分析[17,18]等方面。国外相关研究的视角较为宽泛,重视科学数据出版新途径和新模式的探索,着重开展数据出版政策[19]、数据出版环节和流程[20]、相关技术和标准化研究[20]、数据出版的案例分析[21],以及对数据出版的隐私保护[22]、质量控制等问题有所涉及[23]。
2 面向开放共享推进科学数据出版的机遇和挑战
经过20多年的发展,我国在科学数据资源管理及开放共享建设方面取得了很大的成绩。但在深入推进科学数据共享过程中遇到一些障碍,尤其在科学数据的有效利用与转化、科学数据共享的可持续发展与应用、促进科学数据共享的软环境建设等方面存在明显不足。这要求对科学数据的管理要突破过去封闭的管理模式,创新科学数据资源全社会共享服务机制,以发挥其最大的规模使用价值。而近几年兴起的科学数据出版将为促进科学数据资源应用提供了一条新的探索途径。
2.1 科学数据开放共享的持续深入推进成为科学数据出版的机遇
2.1.1 长期的科学数据共享建设在数据资源、应用、管理等方面积累经验
我国自2002年正式启动“科学数据共享工程”以来,已建成国家级科技资源共享平台共30多家,加上地方、部委、专业机构建设的各类数据存储中心,我国基本形成了三级(国家—省市—专业机构)科技资源共享体系,支持了一些关键领域的基础研究。无论是在数据资源建设还是在运行管理方面都为科学数据出版奠定了坚实的实践基础。比如在数据资源建设方面,国内已建立了一批科学数据共享中心,积累了部分科学数据资源,涵盖林业、农业、地理、气象等学科领域,数据量达到TB量级[28],这为科学数据出版提供了丰富的高质量数据资源;在资源应用服务方面,以国家科学数据共享平台、中国科学院科学数据中心为代表的各类科学数据共享服务建设,已收集、整理了部分科学数据资源,对外提供服务,满足各类科研项目发展需要;在运行管理的经验积累方面,经过近20年的运行发展,我国各类科学数据共享平台积累了丰富的共享平台管理、资源存储、运行维护、用户服务方面的经验。上述实践为进一步开展数据期刊建设奠定了扎实的管理基础。
2.1.2 科学数据出版建设已具备良好的政策基础
首先,基于大数据资源的发展已经提升到国家战略层面,在《国务院关于印发促进大数据发展行动纲要的通知》中要求加快推动数据资源开放共享流通,强化数据资源在各领域的应用,促进产业转型升级[29];2016年6月国家发改委发布的《关于组织实施促进大数据发展重大工程的通知》中提出“探索构建国家数据中心体系”,鼓励大数据示范应用、大数据共享开放[30];其次,2018年4月国务院颁布的《科学数据管理办法》(以下简称《办法》)的第二十二条指出,“主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据”[31]。
总之,科学数据出版是落实诸多科学数据建设规划、深化数据共享政策的重要手段。它在一定程度上解决了当前科学数据共享利用中的归属、激励、质量保证等方面的问题,创新科学数据共享机制,促进科学数据的有效传播和复用。
2.1.3 国内科学数据共享相关机构已开始积极探索科学数据出版
目前各国科学数据出版都还处于积极探索建设阶段,除美国、欧盟国家、日本等少数国家在生物信息、地球物理等领域具有一定先发优势外,各国在其他学科领域都正处于起步阶段,尚未形成垄断性、核心的数据中心,一些关于科学数据共享的数据计算模型、大容量存储技术、数据与文献关联分析技术、高通量流通技术、数据挖掘工具等尚未获得突破性进展。在科学数据出版方面,我国尚未与国际发达国家在基础研究、学科发展、数据资源积累、出版机构建设等方面拉开巨大的差距,这为我国赶超国际发展提供了很好的机会。
尽管国内科学数据出版实践相对滞后,但正处于积极探索阶段。在学术期刊层面:《生物多样性》和《物理化学学报》都出台了原始数据出版处理的相关规定[32];2016年,中国科学院创办数据期刊《中国科学数据》[33];2018年2月,中国科学院遥感与数字地球研究所等联合国外机构共同创办全球地球科学领域首个大数据开放获取学术刊物《地球大数据》[34];2017年,中国科学院地理科学与资源研究所和中国地理学会等联合创办了实体数据与论文关联出版期刊《全球变化数据学报》[35];华大基因和BoiMed Central联合创办数据期刊Giga Science等。在科学数据存储方面,国内一些学科研究机构已具备海量科学数据存储条件,诸如中国科学院科学数据中心、国家蛋白质科学中心、上海生物信息技术研究中心等分别建立了具有一定数据容量的科学数据存储空间,并实现与国外主要专业领域数据库的链接、镜像和部分数据备份,也建立了相应的软硬件服务支撑体系,并承担了部分国外学术期刊的数据存储功能。
总之,在现有的科学数据开放共享建设中,无论是在数据资源建设还是在运行管理方面都为数据期刊建设奠定了坚实的实践基础。
2.2 开放共享科学数据出版面临的问题与挑战
不同学科领域产生的科学数据类型不同、数据描述的元数据标准不同,对数据的解读、利用方法也有很大的差异,使得科学数据出版的具体规范、途径呈现不同方式,也使得目前仍未形成成熟的科学数据出版模式,科学数据出版传播生态体系各要素(如责任主体、出版模式、奖罚约束规则、引用评价标准、运行机制等)仍处于动态的发展变化过程中。因此,一些在快速发展中遇到的问题和挑战日渐突出,亟须从国家层面给予指导和约束。
这些问题和挑战表现在以下几个方面:
(1)科学数据出版作者和用户积极性不高。从目前实施效果看,存在明显的“两头冷、中间热”的“橄榄型”现象,即作者和使用者的反应并不积极,但期刊出版商和数据仓储中心则更热心。期刊在应对作者的诉求方面尚缺乏有效的回报机制或激励办法。比如:如何对数据出版进行数据确权、数据查重、质量监控等;在管理上如何制定有效的数据成果认定办法、数据引用和评价方法及奖励机制等。这些问题将影响科研人员提交高质量科学数据的积极性和动力。
(2)科学数据出版机构微观政策众多,但缺乏国家层面统一的政策措施。目前一些机构多从数据描述符格式、内容类型、同行评议、引用规范等方面制订适合各自的科学数据出版政策,还没有国家层面颁布的统一的政策措施(包括数据存储方式、数据提交方式、数据交换标准、质量控制规范、同行评审、科学数据引用、科学伦理规范等)来指导各个期刊、数据中心进一步建设科学数据出版系统,以及形成相互协调的合作机制。
(3)各出版主体之间尚未形成有机高效的合作机制。科学数据出版拓展了参与主体,其学术传播主体已不局限于期刊出版商、评审专家、作者、读者等,一些数据共享中心、数据评价中心、科技资源管理部门、数据同行评议专家、数据监管等主体进入科学数据出版体系,形成新的学术共同体,提高学术传播体系的完整性。但目前各个责任主体尚缺乏有效的沟通合作机制。因此,有必要明确各个责任主体的分工、工作职责,建立规范化、制度化的协调机制。
(4)科学数据出版缺乏长期稳定的资金支持渠道,资金有待合理分配。科学数据出版管理是一个复杂的系统工程,既包括出版生态系统的建设,涉及数据资源的版本、来源追溯,以及隐私、伦理和数据保护等信息安全问题,又包括数据存储中心的建设,涉及设备设施建设、数据库系统搭建、资源标准规范建设、数据安全防护及日常维护等内容,投入十分巨大,数据出版管理难度大。而且,在实际的科学数据出版过程中,期刊数据管理或数据共享中心的运行维护成本会随着数据量的积累、对外服务的拓展而骤增,仅靠单一主体所投入的经费将不足以支撑数据出版系统。为此有必要进行管理创新,积极探索创新多元、有效的合作出版模式,从而使得数据出版获得长期可持续性的发展。
3 面向开放共享加强科学数据出版的对策建议
基于以上分析,我国应面向保障国家科学数据资源管理、数据安全和国家相关产业发展的重大战略性需求,坚持“创新、协调、合作、开放、共享”发展理念,以推动科学数据资源持续发展、有效传播与利用为动力,以科学数据资源集成与共享为主线,以提升我国整体科学数据出版和管理能力为核心,最大限度地收集、保存、加工和优化配置科学数据资源,构建以国家为主导的科学数据出版的持续积累与管理的信息基础设施,形成多元主体并存、相互合作的科学数据出版学术传播软环境,为促进我国科技创新和经济社会发展,保障国家数据安全,推动和支撑我国基于科学数据资源而开展的科研活动、学科发展、产业开发、数据利用等的进一步发展。
3.1 制定科学数据共享实施细则,提供宏观制度保障
《办法》从主体责任、知识产权、汇交机制等方面明确了要求,为各个机构开展科学数据开放共享创造了政策条件。比如中国科学院依据《办法》于2019年2月发布了《中国科学院科学数据管理与开放共享办法(试行)》,对中国科学院科学数据管理与开放共享的总体原则、职责分工、管理要求、保障机制及安全保密等作了制度规范,要求内容包括数据汇交及审核管理、数据共享的规范,以及共享服务等方面,这一办法为进一步加强科学数据管理,提高科学数据开放共享水平提供了制度规范[36]。
为此,各个机构应抓住机会,围绕《办法》的要求制订具体实施细则,包括但不限于以下几方面。
(1)进一步明确主管部门与资源拥有机构在科学数据管理与共享中的主体责任,制订科学数据共享实施办法,落实“谁拥有、谁负责”“谁开放、谁受益”的原则,制订机构内部的、具体的科学数据管理与共享办法、实施步骤、工作流程等。
(2)从政策上进一步明确和支持科学数据出版。《办法》规定了主管部门、法人单位要建立相应的管理制度,确保在国外期刊发表学术论文的作者将支撑论文观点的科学数据汇交到所在单位统一管理。这从政策上明确了国内科学数据资源流向的管理。因此,各科学数据共享中心、法人机构应积极响应,不仅从硬件基础设施建设上加大投入,以满足海量科学数据资源的上传、存储、使用、服务等,而且要从软件环境上积极准备,进一步制定科学数据资源的技术标准、云数据规范、数据分析工具使用规范、出版服务流程等。这些都是科学数据出版的基本条件。在此基础上,将数据出版论文作为重要的学术成果纳入到科研成果认定范围,像期刊论文一样计入科技成果评价体系,从而进一步激发数据生产者的积极性。
(3)以《办法》为指导,探索科学数据出版的创新方式,并积极推广。
(4)探索科学数据知识产权确认机制,对科学数据开放共享的各种方式进行归类,指定每种方式中科学数据知识产权的权属及使用规范。
(5)制订数据提交以及数据质量的“奖罚”办法,借助于科学数据出版同行评议方法对出现的数据造假、数据滥用、数据隐瞒等情况进行监督、约束,对数据提交者及其法人机构从项目申报、资金支持、成果评定等方面制订惩罚措施。最重要的是,增强数据生产者提交高质量科学数据的主动性,比如对及时、完整提交高质量数据的提交者及法人机构给予奖励(如绩效评价、成果认定等)。
3.2 支持现有数据中心和出版机构积极开展科学数据出版试点
(1)鼓励现有专业数据中心依托其数据资源及业务积极开展科学数据出版。应充分利用新的信息技术解决数据资源的版权保护、数据引用等问题,比如利用DOI、Handle System(句柄系统)、DCI技术明确数据版权信息、数据引用规范,利用数据可视化技术、富媒体出版技术促进数据资源更好地被用户理解和使用,调动数据提供者、数据使用者的积极性,从数据出版全流程保证数据的可流通性。
(2)支持传统学术出版机构积极探索科学数据出版的新模式。传统学术期刊主导的科学数据出版解决了学术论文的数据可证伪性,防止学术不端问题。同时,也促进了聚集起来的数据资源发挥独立的可复用价值。但随着数据量剧增,数据处理技术日渐普及,原有科学数据出版的方式、途径呈现多种形式,也面临着一些新的深层次问题(诸如责任划分、数据存储成本、引用计量方法、奖罚机制、同行评审、质控措施等),这些实际问题也意味着科学数据出版范围正在不断拓展,学术出版机构要积极响应这一新的变化趋势,借助于新的信息技术创办数据期刊或者出版数据专刊,进一步探索新的科学数据出版模式、运行机制。
(3)探索以科学数据共享中心为核心主体的新型科学数据出版系统,创新科学数据共享方式。我国科学数据共享从早期的数据收集、资源建设逐渐转向面向公众的资源服务。但在这一转变过程中,面向全社会的数据共享运行机制并不顺畅,其中的原因包括数据质量达不到利用要求,以及数据安全方面的顾虑。为此,有必要进一步调整科学数据共享中心的定位,明晰数据管理职责[37],创新共享服务方式,鼓励数据共享中心职能转型,使科学数据共享中心成为科学数据出版的数据注册、数据维护和数据永久保存机构。因此,要与各领域的数据中心和期刊合作,围绕国家重大项目或工程中的科研问题和需求导向,定期开展专题、专项的科学数据出版服务工作[23]。
3.3 逐步建立专业性公共数据仓储(或数据平台)
存放数据资源的公共数据仓储(或数据平台)是开展科学数据出版活动的基础设施,是推动科学数据“可见、可得、可用”的硬件保障。但这方面的投入巨大,不是单独一家机构所能承担的。为此,国家和各学科领域应支持加快建立一批开放、规范、质控严格的数据存储库,支持数据资源的永久保存和开放共享[27]。从目前科学数据出版方式看,主要有传统期刊出版商或数据仓储中心的单独出版模式,以及出版主体之间相互合作的联合(集成)出版模式。两种模式各有优点、局限性和适用范围。其中,传统数据出版商和数据共享中心之间的合作方式是目前优势互补、成本投入较少的一种常用的方式。比如,2008年9月由美国国家科学基金会资助建立的Dryad数据库,储存了医学、生物学、生态学领域的研究数据,帮助机构和研究人员长期保存及免费获取数据资源,它采取与出版机构联合的数据存档政策,已成为许多期刊出版机构指定的数据储存地点,目前的合作期刊超过600种[38]。
从长期发展来看,有可能形成以数据共享中心为核心的多期刊出版商合作的数据出版方式。数据共享中心将充分利用其数据管理的经验、技术、软件工具等加强科学数据资源的整合。一方面,与国内外学术期刊出版机构加强合作,为其开展数据出版提供数据存储、技术维护、数据安全等方面的技术保障;另一方面,建立与数据加工者、数据用户之间的联系,整合内、外部资源,探索建立新的科学数据出版系统。
新的科学数据出版系统应至少包括4个方面:(1)传统的科学数据存储服务系统,继续承担国家赋予数据共享中心的数据存储任务,进行专业领域科学数据的汇交、存储、共享和服务,满足社会基本的数据共享服务需求;(2)科学数据出版系统,对内、对外建立广泛联系,搭建科学数据出版生态链,包括数据的存储、数据论文的在线发布等;(3)科学数据增值服务系统,进一步发挥数据资源的潜在价值,通过数据关联技术、可视化技术、数据分析挖掘技术等进行专题、专项数据服务,并提供专业化的全网数据(集)搜索支撑服务;(4)数据资源评价系统,与期刊评价系统类似,提供数据收录证明、数据出版证书、数据引用证明、数据利用证明等,以强化对数据出版的正向激励措施。
3.4 进一步加强科学数据出版的标准化、规范化建设
目前科学数据还只是各期刊出版单位或数据存储中心(库)的单独行动,尚未形成领域之间,乃至全社会各类数据资源的统一、有效的检索、关联使用。而要实现对海量科学数据的全社会流通、共享使用,则有必要进一步规范科学数据出版过程中的出版规范和引用标准,以使数据间能够很好地互联互通,使数据资源能够像学术论文那样广泛传播、检索、阅读和引用。
科学数据标准化是科学数据共享与出版、数据互联互通等内在要求的统一。规范和科学的各项标准体系是实现各机构之间科学数据资源的数据交换、数据流通和互操作的前提,可保证数据资源规范运行、高效传输和使用。科学数据共享与出版的标准化、规范化建设包括以下几方面:(1)组织管理工作的标准化,主要包括数据共享与出版组织管理的标准化规范,加强信息管理过程中的标准制定管理工作;(2)数据资源的标准化,主要包括数据资源的分类及目录的标准化、数据处理的标准化;(3)出版系统环境的标准化,包括信息处理技术标准体系和统一出版系统软件的标准化、出版系统硬件和通信网络的标准化、共享服务系统使用标准化、系统兼容及互操作标准化、科学数据出版和引用的统一规范与标准化,以及科学数据出版的元数据标准化等。以Nature出版集团创办的期刊Scienpngic Data为例,其主要刊载数据论文和综合学科数据集。该期刊的数据出版标准规范从论文作者和出版编辑两方面设定,对作者的规范包括数据描述符格式、内容类型、同行评议、提交出版、引用规范和确权复用等;对出版编辑的规范包括编辑和出版政策、评审指南、数据政策和推荐的数据库等[39]。
3.5 数据共享中心与传统期刊出版商建立科学数据出版合作联盟
科学数据出版合作联盟就是数据共享中心积极与一些传统专业期刊出版商、其他专业领域数据存储机构合作,共同建立科学数据出版合作联盟,借助于传统期刊出版的传播生态圈促进科学数据的共享和使用,具体举措如下。
(1)加强与国际顶级专业期刊合作,积极申请成为期刊数据的专业存储中心,创建联合互动的管理机制。目前,国际上已形成一些较有影响的数据存储中心(如美国的Dryad数据库、Figshare等)[16],且在数据出版政策、数据维护、质量控制、数据引用、数据可视化展示等方面具有丰富的经验。比如,美国国立生物信息技术中心(National Center for Biotechnology Information,NCBI)建立和维护的GenBank(基因银行),是世界上资源最全、质量可信度高的基因序列登记数据库。它通过为各学术期刊提供科学数据出版中科研数据存储服务,收集大量高质量的科学数据。这是我国科研人员在科研活动中高度依赖的国外重要数据库之一[40]。为此,我国一些专业的数据共享中心应借鉴国际数据仓储中心的做法,及时关注并跟踪国际数据出版动态,与一些期刊合作,通过采用联合数据存储政策,建立联合互动的数据管理和出版机制,引进其成功经验,并考虑数据标准、数据发布、同行评审、永久保存、数据引用以及评价等环节,解决其数据存储、数据管理和共享等问题,降低管理成本,共同提升数据出版品质。比如:2021年1月中国科学院正式发布了其科学数据银行项目(ScienceDB,为一种公用的科学数据存储平台),对外提供数据的存档、汇交、出版和共享利用等项目,也提供数据与论文关联服务[41]。
(2)加强与国内专业期刊合作,探索数据论文在传统期刊发表的可行性。首先,期刊是目前公众最认可的传播媒介之一,因此,有必要从国家层面推动和引导我国科学数据出版体系的建立,从政策制度等方面引导数据出版,探索数据知识产权确定办法,协调数据共享与知识产权保护之间的平衡,并促进数据中心与期刊机构之间的合作;其次,随着文献资源与数据资源之间的关联融合技术日渐成熟,数据共享中心与文献期刊出版商合作将有效促进文献与数据知识关联,进一步满足科研人员的新需求;最后,通过合作,将数据共享中心存储的数据资源以数据出版的方式在传统期刊发表,借助传统期刊的科技成果认定、知识产权保护机制来确保科学数据成果的发布,促进科学数据的交流传播和利用,也解决科学数据知识产权保护的难题。
(3)与一些专业机构合作创办各类专业性数据期刊,鼓励科研人员发表数据论文。据刘凤红等[42]在2019年的统计数据,全球共有162种数据期刊,且数据期刊数量呈逐年增加趋势。与传统学术出版不同的是,科学数据出版仅是描述数据集(数据实体)特征及其指定存放的位置,不发表结论性观点,是建立关联,从其元数据相关信息链接获得数据实体。因此,数据论文中常包括对数据收集、处理过程的描述、所采用的软件工具、储存的数据格式等,实际上是对数据实体的结构化描述。它通过数据出版方式,借助于同行评议、数据引用等体现对数据贡献者的学术认可。比如,2016年创办的《中国科学数据》是目前国内唯一的综合性数据出版期刊,通过与中国科学院数据存储中心合作出版数据论文,推动数据论文的发表、保存及利用等[33]。为此,应将数据论文等同于学术论文进行成果认定,鼓励科研机构创办各类专业性数据期刊,鼓励科研人员提供、发表高质量的数据论文[18]。
3.6 规范引用数据,探索数据的评审和评价机制
科学数据引用是实现科学数据共享的重要手段,它类似于论文中的文献引用,通过对所利用数据资源的描述、定位或参考标识,确定该数据的重要利用价值。通过数据引用既可以明确数据来源,提高数据的再现性和数据透明度,有利于数据研究过程的验证,又可以确认所利用数据资源的版权,认可数据生产者的贡献,提高其学术影响力[43]。为此,很多学者和机构都在探索科学数据引用的机制和规范。比如:2012年汤森路透通过文献与数据之间的相互引用(Data Citation Index,DCI)创建了一套数据评价指标体系,反映数据被引及关联情况[44];我国也在2018年7月1日开始实施GB/T 35294—2017《信息技术科学数据引用》。但目前在数据引用规范性、实现方式、引用计量和评价科学性等方面仍然处于探索阶段。
为此,应积极研究建立科学数据引用及评价机制,鼓励和要求科研用户像引用和标识学术论文一样引用、标引所利用的科学数据出版物,并将其纳入科研成果评价标准中[4];围绕科学数据引用国家标准,与期刊出版机构、评估专家等进一步确定简便、有效的数据引用格式,并统一纳入到期刊出版等论文出版格式规范中;探索科学数据引用的计量研究方法,开展科学数据资源利用效率评估、数据提供者的数据贡献评估、数据中心数据出版绩效评估、区域及学科数据再利用评价等[12]。比如刘闯[45]提出数据成果、数据作者对科学的影响力可以用“数据影响力积分”(Data Impact Score, DIS)的计量化方式表达,即以引文为基础、以引用数据论文发表的学术期刊影响因子为核心参数来统计分析“科学数据的数据成果影响力积分”和“数据作者影响力积分”,以此建立评估数据资源及作者的贡献程度。这是对数据贡献计量评估的创新思考。
4 结束语
科学数据出版已在科学数据开放共享领域得到基本认可,已有机构在积极探索创办数据期刊。但是国内科学数据出版的理论和实践仍处于探索阶段,尚未形成统一的科学数据出版外部宏观环境,数据传播的要素和核心问题有待进一步诠释;数据出版机构进行科学数据出版尚未形成成熟的科学数据出版政策、运行模式及与论文等资源的关联机制。
本研究是对现有科学数据出版现状的总结思考,分析有一定的局限性。相信随着信息技术的不断应用、科学数据存储系统的推陈出新,以及科学数据开放共享方式的创新,新的科学数据出版方式将不断涌现,有待根据科学数据出版发展趋势来发掘更有效的应对策略。
参考文献
[1]伏安娜, 张计龙, 殷沈琴. 数据论文国内外发展研究综述[J]. 图书情报工作, 2015,59(24):131-138.
[2]吴立宗, 南卓铜, 王亮绪. 科学数据出版:促进数据共享的一种新模式[J]. 中国科技资源导刊, 2014,46(5):72-78.
[3]吴立宗, 王亮绪, 南卓铜, 等. 科学数据出版现状及其体系框架[J]. 遥感技术与应用, 2013,28(3):383-390.
[4]李小燕, 田欣, 郑军卫, 等. 我国数据出版前景探析[J]. 中国科技期刊研究, 2015,26(8):792-799.
[5]中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见[EB/OL]. (2020-04-09)[2021-05-09]. https://baijiahao.baidu.com/s?id=1663492307485200819&wfr=spider&for=pc.
[6]邓英, 饶莉, 李桂东. 科学数据出版:我国科技期刊出版之内容创新[J]. 编辑之友, 2017(4):39-43.
[7]王丹丹. 科学数据出版平台的用户测试研究[J]. 情报资料工作, 2017(6):56-61.
[8]屈宝强, 王凯. 数据论文的出现与发展[J]. 图书与情报, 2015(5):1-8.
[9]何琳, 常颖聪. 国内外科学数据出版研究进展[J]. 图书情报工作, 2014,58(5):104-110.
[10]黄国彬, 王舒, 屈亚杰. 科学数据出版模式比较研究[J]. 大学图书馆学报, 2018,36(1):34-40,33.
[11]雷秋雨, 马建玲. 学术期刊数据出版政策研究综述:以JCR中进化生物学领域期刊为例[J]. 图书馆理论与实践, 2016(1):30-34.
[12]张静蓓, 任树怀. 科研数据出版模式、流程及引用策略研究[J]. 图书情报工作, 2015,59(9):21-27.
[13]王丹丹. 科学数据出版过程中的数据质量控制[J]. 图书情报工作, 2015,59(23):124-129.
[14]涂志芳. 科学数据出版的基础问题综述与关键问题识别[J]. 图书馆, 2018(6):86-92,100.
[15]张恬, 刘凤红. 数据出版新进展[J]. 中国科技期刊研究, 2018,29(5):453-459.
[16]傅天珍, 陈妙贞. 我国学术期刊数据出版政策分析及建议[J]. 中国出版, 2014(23):31-34.
[17]徐雷, 潘珺. 科学出版物语义数据及其应用研究[J]. 中国科技期刊研究, 2018,29(7):704-710.
[18]赵华, 王健. 科学数据出版现状及对中国农业科学数据出版的启示[J]. 农业展望, 2016,12(8):53-57.
[19]Bloom T, Ganley E, Winker M. Data access for the open access literature:PLOS's data policy[J]. PLoS Biology, 2014,12(2):e1001797.
[20]Kriegeskorte N, Walther A, Deca D. An emerging consensus for open evaluation:18 visions for the future of scienpngic publishing[J]. Frontiers in Computational Neuroscience, 2012,6:94.
[21]Candela L, Castelli D, Manghi P, et al. Data journals:A survey[J]. Journal of the Association for Information Science and Technology, 2015,66(9):1747-1762.
[22]Alsheikh-Ali A A, Qureshi W, Al-Mallah M H, et al. Public availability of published research data in high-impact journals[J]. PLoS One, 2011,6(9):e24357.
[23]Burton A, Koers H, Manghi P, et al. On bridging data centers and publishers:The data-literature interlinking service[M]// Metadata and Semantics Research. Berlin:Springer International Publishing, 2015: 324-335.
[24]屈宝强, 宋立荣, 王健. 开放共享视角下科学数据出版的发展趋势[J]. 中国科技期刊研究, 2019,30(4):329-335.
[25]邢文明, 刘婷. 增强出版驱动的科学数据出版:动因、模式及路径[J]. 中国科技期刊研究, 2019,30(8):853-861.
[26]许洁, 唐文辉, 夏心悦. 面向实践的数据出版现状分析与对策探讨[J]. 中国科技期刊研究, 2020,31(11):1331-1337.
[27]孔丽华, 习妍, 张晓林. 数据出版的趋势、机制与挑战[J]. 中国科学基金, 2019,33(3):237-245.
[28]国家科技基础条件平台中心. 中国科技基础资源共享网[EB/OL]. [2021-05-09]. https://escience.org.cn.
[29]国务院. 促进大数据发展行动纲要[EB/OL]. (2015-09-05)[2021-05-04]. http://www.gov.cn/zhengce/content/2015-09/05/content_101137.htm.
[30]国家发改委. 关于组织实施促进大数据发展重大工程的通知[EB/OL]. (2016-01-07)[2012-05-04]. https://cloud.tencent.com/developer/article/1134246.
[31]国务院. 科学数据管理办法[EB/OL]. (2018-04-02)[2021-05-04]. http://www.gov.cn/home/2018-04/02/content 5279296.html.
[32]生物多样性[EB/OL]. [2021-02-08]. https://www.biodiversity-science.net/CN/1005-0094/home.shtml/.
[33]中国科学数据[EB/OL]. [2021-05-08]. http://www.csdata.org/.
[34]地球大数据[EB/OL]. [2021-05-08]. https://www.tandfonline.com/toc/tbed20/current.
[35]全球变化数据仓储(中英文)[EB/OL]. [2021-02-08]. http://www.geodoi.ac.cn/WebCn/Default.aspx/.
[36]中国科学院科学数据管理与开放共享办法(试行)[EB/OL]. (2019-02-21)[2021-05-08]. http://www.go.cas.cn/gzdt/201902/t20190221_4679909.html.
[37]苏靖, 石蕾, 王正, 等. 推进科学数据与信息资源管理共享的思路与对策[J]. 中国科技资源导刊, 2015(5):45-49.
[38]Dryad数据库[EB/OL]. [2021-05-13]. https://datadryad.org.
[39]Scienpngic Data[EB/OL]. [2021-04-26]. http://www.nature.com/sdata/.
[40]美国国立生物信息技术中心[EB/OL]. [2021-05-09]. https://www.ncbi.nlm.nih.gov/.
[41]科学数据银行[EB/OL]. [2021-05-14]. https://www.scidb.cn/en.
[42]刘凤红, 彭琳. 国际数据期刊的发展现状调查与分析[J]. 中国科技期刊研究, 2019,30(11):1129-1134.
[43]屈宝强, 王凯. 数据出版视角下的科学数据同行评议[J]. 图书馆杂志, 2017,36(10):71-77.
[44]张丽丽, 黎建辉. 科研数据的开放:进展、模式与新探索[J]. 大数据, 2016,2(6):25-33.
[45]刘闯. 数据影响力积分(DIS):数据影响力新的计量方法[J]. 全球变化数据学报(中英文) 2018,2(2):135-143,258-266.