基于数据生命周期模型的国外数据期刊政策研究

  • A+
所属分类:学术文献 科研助手

作者简介:黄如花(1968- ),女,武汉大学信息资源研究中心,武汉大学信息管理学院教授,博士生导师,研究方向:信息组织、信息检索与服务、政府数据开放;李楠(1992- ),女,武汉大学信息管理学院硕士研究生。武汉 430072

内容提要:数据期刊政策是促进科学数据共享和利用的基础,对国外数据期刊政策的调研分析,有利于我国数据期刊政策的研究和制定。文章以数据生命周期模型为理论基础,通过文献调研和网站调研,分析了国外纯数据期刊在数据计划、数据确认、数据描述、数据保存、数据整合和利用5个阶段的数据政策内容。我国数据期刊出版应制定基于科研数据生命周期的数据期刊政策、与科研数据知识库和图书馆开展合作、注重保护作者权益、鼓励数据引用采用国际标准格式。

关键词:科研数据 数据期刊 数据生命周期 政策

中图分类号:G255.2 文献标识码:A

大数据背景下,科学研究已进入“第四范式”,即数据密集型研究,科学数据成为科学研究的心脏,科学数据的共享越来越重要。英国皇家学会2012年发布的《科学是开放事业》(Science as an Open Enterprise)报告中提出:一篇完整的学术论文应该包括对实验的完整描述、结果数据和确保数据能被验证和重复使用的元数据,但实际情况却是原始数据和科学结果的发表被割裂开了[1]。国外科学界较早认识到科研数据的重要性,并创建了数据期刊来发表描述数据集的论文。数据期刊目前已成为科研数据的三种重要传播方式之一和重要角色之一[2]。

数据期刊是一种新型的学术论文出版和科学数据共享模式,出版专门描述数据集的短篇论文,目前国际上有15家期刊出版商出版110多种数据期刊,并且数据期刊的数量还在不断增加[3]。数据期刊对推动科研数据开放共享,促进数据重用、数据引用和科研评价具有重要作用,数据期刊政策是创建数据期刊的首要环节,涉及数据提交、数据描述、数据保存、数据利用等数据生命周期阶段。目前国内关于数据期刊政策的研究较少,本文拟调研国际数据期刊政策,以期为完善我国数据期刊政策提供参考,从而推动我国数据期刊和数据出版的发展。

1 研究概述

1.1 研究背景

数据期刊是应对科研数据共享的大趋势之下发展起来的新型学术期刊,是一种对数据的使用、引用和重用,以及对数据内容来源的准确识别和溯源都非常重要的工具[4]。当前大多国外数据期刊以开放获取的方式正式出版,以便于科学数据最大限度地传播、共享和利用。数据期刊主要出版描述数据集的数据论文(data paper),旨在使其他研究人员了解可能用于科学和教育目的的数据,数据论文内容不涉及基于科学假设和科学问题的研究结果,描述的数据集来源既可以是对已发表论文中数据的说明描述,也可以是对新产生数据的说明描述。数据论文描述了用于创建数据集的方法、结构、重复使用价值以及与其在存储库中的位置的链接。

数据期刊有两种类型,一类是以出版研究性论文为主,将数据集作为论文的补充性文件出版的混合型(Mixed)数据期刊,如Gigascience、Ecology、F1000 Research、Biodoversity Data Journal;另一类是专门出版数据论文的纯(Pure)数据期刊,目前共有7种纯数据期刊,分别是《科学数据集论文》(Dataset Papers in Science)、《地球科学数据期刊》(Geoscience Data Journal)、《地球系统科学数据》(Earth System Science Data)、《科学数据》(Scientific Data)、《开放健康数据》(Open Health Data)、《开放考古学期刊》(Journal of Open Archaeology)、《开放心理学数据期刊》(Journal of Open Psychology Data)。

国际对数据期刊政策内容分析的研究相对较少,由于数据期刊政策只是微观层面的一个内容点,目前更多的研究主题集中在科学数据共享政策、技术、障碍等方面。国内关于数据期刊政策方面已有一些研究,如刘晶晶等[4]以Scientific Data期刊为案例,根据实用主义方法论,以合理竞替的方法筛选和提炼政策要素,认为数据期刊应该着重于期刊提交规范、质量管理流程以及保障各方权益;欧阳铮铮等[5]选择15种数据期刊进行调研,对其发展现状、学科分布、出版方式、收录内容、版权协议以及出版费用等方面进行了分析;刘凤红等[2]分析了不同类型数据论文的产生背景、概念、权益管理以及出版流程;雷秋雨等[6]分析了当前几种典型的数据期刊出版模式,即以出版短数据论文为特征的数据期刊、以整合出版为特征的数据期刊、数据以补充资料出版特征的数据期刊,最后简要论述了数据期刊出版当前的发展状况、存在的问题、建议及数据期刊的发展趋势。由上述可知,目前已有的研究并没有针对纯数据期刊政策的调研分析。

1.2 研究方法

文章以生命周期理论为理论基础,采用DataOne科学数据生命周期模型[7]。数据生命周期是指从数据产生,经数据加工和发布,最终实现数据再利用的一个循环过程,其实质是依据科研过程来管理数据[8]。DataOne科学数据生命周期模型共包括8个阶段,分别是数据计划、数据收集、数据确认、数据描述、数据保存、数据发现、数据整合、数据分析。虽然将数据集发表在数据期刊上只涉及数据生命周期中的一个阶段,但是数据期刊对其发表的数据集或者数据论文的政策要求涉及了数据生命周期的多个阶段,分别是数据计划、数据确认、数据描述、数据保存、数据整合阶段,本文将从这5个阶段分析数据期刊的具体政策。

文章采用网络调查法和内容分析法,选取国际上纯数据期刊作为研究对象,通过广泛阅读相关文献和访问数据期刊的官网,具体分析其在科研数据生命周期数据计划、数据确认、数据描述、数据保存、数据整合阶段的政策。由于7种纯数据期刊中的《开放健康数据》《开放考古学期刊》《开放心理学数据期刊》均是由Ubiquity press出版社出版的数据期刊,其期刊政策极为相似,故本文只选取其中一种(《开放健康数据》期刊)进行调研分析,共5种纯数据期刊政策(见表1)。

基于数据生命周期模型的国外数据期刊政策研究

2 科学数据生命周期模型下的数据期刊政策分析

2.1 数据计划阶段

数据计划是指制定科研数据计划、确定生成的数据类型、数据格式和数据的组织方式等。文章所调查的《科学数据集论文》等五种数据期刊均有关于数据计划与提交的相关政策要求。

《科学数据集论文》要求提交电子PDF或Word(DOC、DOCX、RTF)文件,数据论文没有页数限制。在数据论文发表之前,数据应该保存在适当的数据库中,提交作者向稿件的编辑者和审稿人提供登录信息,编辑者和审稿人可以访问数据库中的数据。数据集可以包括一个或多个表、图像或基因序列的组合[9]。《地球系统科学数据》于2009年开始出版地球科学相关数据,旨在推动地球系统科学高质量科研数据的重用。要求提交的数据论文包括实验和观测数据的描述等,数据论文可先通过简单快速的同行评审发表在期刊的论坛上,待稿件正式通过同行评审后,则发表在《地球系统科学数据》期刊上[10]。《地球科学数据》要求作者提交的数据论文对数据集进行详细描述,包括原始数据集的收集、处理以及数据集的格式、大小等细节信息,如文本和表格的格式推荐使用DOC、DOCX、RTF,动画和视频推荐使用GIF、mpeg或AVI格式。在数据论文发表前作者要为数据集找到合适的数据仓储,并获得DOI[11];《科学数据》期刊中的数据主要是指计算或策划数据,以及通过实验或观察产生的数据,论文使用DOC、DOCX、TEX格式,图片使用PDF、EPS、TIFF、JPG格式[12];《开放健康数据》发表的数据类型包括:计算机模拟数据、实验数据、采访和调查数据、灰色文献等,图使用150DPI分辨率(300DPI以上优先),文件必须为以下格式:JPG、TIFF、GIF、PNG、EPS(以最大限度地提高质量,原始源文件是首选),数据格式应为ASCII、CSV、Autocad、EPS、JPEG、Excel、SQL等[13]。

2.2 数据确认阶段

科学数据具有数量大、种类多、更为复杂的特点,科学数据确认即对科学研究最终产生数据的完整性和真实性进行复查核验的过程[14]。数据期刊重视数据收集过程的技术严谨性、数据完整性以及与现有标准的匹配度,数据期刊政策通常涉及数据确认和数据验证部分,文章调查的5种期刊均具有严格的数据审查政策。首先,同行评议是维护科学和学术研究质量和诚信的基础。通过同行评审,确保数据集和数据论文的一致性、数据质量、数据使用价值和数据重用价值等(同行评议标准相关政策见表2)。

基于数据生命周期模型的国外数据期刊政策研究

其次,数据期刊为了确保数据质量,还采用了反剽窃和预防伪造数据的相应措施。《科学数据集论文》使用iThenticate软件来检测提交的手稿中重叠和类似文本的实例,被发现是从其他作者手稿中剽窃的手稿,无论是出版的还是未出版的,都将遭受剽窃制裁,提交的手稿,发现制造或伪造的实验结果,将招致数据伪造制裁。《开放健康数据》期刊使用反剽窃软件(CrossCheck)来确保学术诚信,所有文章都由CrossRef的CrossCheck系统自动筛选,系统将传入的文章与大量学术内容数据库进行比较,并向编辑提醒任何可能出现的数据质量问题[19]。

2.3 数据描述阶段

在数据描述阶段数据期刊的政策主要是关于描述数据集的数据论文结构等方面的政策。数据期刊要求数据论文的描述结构通常包括标题、作者、摘要、方法标识符、技术验证、日期、主题、资助机构、语言、存储位置、参考文献等内容(见表3)。其中,《开放健康数据》期刊对数据论文的长度有限制,要求科研人员提交的数据论文要短,《科学数据集论文》《地球科学数据》《地球系统科学数据》《科学数据》四种数据期刊对数据论文的长度没有限制,但《科学数据》对描述数据集的论文标题和摘要长度有要求,标题包括空格在内不得超过110字符,摘要不超过170字符。

基于数据生命周期模型的国外数据期刊政策研究

科研人员应详细说明在数据集论文中描述的实验、观察中使用的方法和材料,应尽可能详细地介绍其方法,包括如何确保精确的测量,以及所使用的任何设备的具体名称和型号。在数据集的描述过程中,科研人员应提供包含在其数据集中的每个表、图像的详细描述,并为表中每列数据提供清晰的标签和描述(在每一列的描述中,应当提供与该列有关的测量单位,只要这样的单位存在,并且在没有测量单位的情况下,应该明确地声明没有任何单位)。科研人员应尽可能提供关于其提交数据的元数据,如果提交的数据集或其任何组件已存储在公开可用的数据库中,应提供访问该数据所需的所有信息,并确保论文中每个参考文献中的信息是完整和准确的,所描述的数据集是可发现和可引用的。

2.4 数据保存阶段

科研数据保存政策是科研数据共享和利用的前提和基础,切实可行的科研数据保存政策能够实现对科研数据的有效管理[20-21]。2015年,欧盟提出了“地平线2020”(Horizon 2020)研究与创新计划,以支持将发表后的研究成果存放到开放知识库中长期保存[22]。

数据期刊均要求科研人员在数据论文发表前,将其描述的数据集存放到合适的数据知识库中保存,如《科学数据集论文》要求作者将数据集存放到Portico数据库;《地球系统科学数据》要求作者将数据集存放到BODC、CDIAC等数据库;《地球科学数据》推荐的数据知识库包括Figshare、PANGAEA、Zenodo等;《科学数据》期刊要求作者承诺在至少五年内,将数据集存在其实验室或机构的服务器上,推荐存储的数据知识库包括DNA DataBank of Japan(DDBJ)、GenBank、ArrayExpress等[23];《开放健康数据》期刊推荐作者存储的数据知识库有特定学科的数据知识库(Dryad、UKDA、Physionet)、普通的数据知识库(Open Health Data Dataverse、Figshare、SND、Zenodo)和机构知识库(UCL Discovery、eResearch South、Austrlia)。为了确保所有出版物的永久性,期刊还利用CLOCKSS和LOCKSS归档系统创建永久性存档用于保存和恢复,期刊内容定期存档到世界领先的研究图书馆。

科研数据集的长期保存是为了促进数据集的可发现性和可利用性,许可协议是作者将数据集存储在数据知识库时,为了保留著作权释放其他一些权利的机制。存储在不同的数据知识库的数据集使用不同的许可协议,如Physionet数据知识库使用GPL(GNU General Public License)许可协议,Open Health Data Dataverse、Dryad、Figshare、SND许可协议使用的是CC0,UKDA、Zenodo使用CC0、开放数据共用许可协议(Open Data Commons License)、开放政府许可协议(Open Government License),数据期刊不建议对数据使用施加商业或其他限制的许可,许可协议使用的限制越少,数据开放的程度越高,数据产生的科学影响可能就越大。

《科学数据集论文》期刊的论文作者保留其作品的版权,根据知识共享署名许可(CC-BY)发布,允许在任何媒体中不受限制地使用、分发和复制文章,前提是文章被正确引用,数据采用CC0许可协议[28];《地球系统科学数据》期刊使用CC-BY 3.0版本[29];《地球科学数据》和《科学数据》期刊的数据论文使用CC-BY许可协议;《开放健康数据》数据论文使用CC-BY许可协议,并且强烈地推荐CC0作为开放研究数据的许可协议[30]。

基于数据生命周期模型的国外数据期刊政策研究

2.5 数据整合与使用阶段

在数据整合和使用阶段,数据期刊特别强调关于数据引用的相关政策,支持数据引用,认为科学数据引用和引用论文等学术引用一样重要,数据引用可以促进对数据做出贡献的任何作者的学术奖励。数据引用应该包含一个统一标识符,且这种标识符是机器可读的、全球唯一的、能被科学界广泛使用的,数据引用可以促进对某一数据的识别、访问和验证,关于元数据的引用还应该包含出处、数据的版本(或者是更新后的和初始数据相同的部分数据)的信息,以便可以跟踪并验证数据[31]。

科学数据引用机制,可有效解决数据开放共享过程中的权益问题,也是对科研人员和数据工作者的一种有效激励机制。调查发现,数据期刊较多采用国际数据引用标准,如《地球系统科学数据》和《科学数据》两本期刊采用Force11引用原则,数据引用的元素包括创建者、出版年、数据知识库名称、版本、持久标识符;《地球科学数据》期刊推荐科研人员使用DataCite引用标准,其引用元素包括创建者、出版年、数据集名称、出版商、持久标识符;《开放健康数据》支持通用的哈佛引用格式。

3 国外数据期刊政策对我国的启示

3.1 制定基于科研数据生命周期的数据期刊政策

国际上已有的数据期刊均制定了详细的基于科研数据生命周期的数据政策,涉及科研数据生命周期的多个阶段(数据计划、数据确认、数据描述、数据保存、数据引用),旨在推动科学数据的开放、交流和引用,推进科学数据的长期保存和数据资产管理,探索科学数据的有效评价机制,推动数据科学的发展。在我国,数据期刊的创建与经营尚处于起步和探索阶段。2014年,中国科学院发行《地理学报增刊》,这是我国第一本数据期刊,配合《全球变化科学研究数据注册与出版系统》运行[35]。2016年,中国科学院和ICSU CODATA中国全国委员会合办的数据期刊《中国科学数据》(China Scientific Data)正式在线出版[36],该刊是我国目前唯一的专门面向多学科领域科学数据出版的学术期刊。我国数据期刊的发展尚不成熟,数据期刊政策是数据期刊出版实践的重要因素,因此,我国在制定数据期刊政策时,可参考国际上发展较好的数据期刊的做法,制定详细的基于科研数据生命周期的数据政策,从而推动数据科学和数据出版的发展进程。

3.2 与科研数据知识库和图书馆开展合作

科研人员在发表数据论文前,将数据集存储在数据知识库中并获得一个DOI是数据期刊出版的首要流程(见图1),同时,公开可用的科学数据分布在众多不同的存储库中,因而用户很难找到相关的数据集,将数据由第三方数据仓储进行管理可实现数据集和数据论文的链接,极大程度地增加数据集的可发现性。国外数据期刊与科研数据知识库开展广泛的合作,将数据期刊中描述的数据存储在数据仓储或数据中心,如DAACs、Dryad、PANGAEA、Figshare、SND、Zenodo等。但是,数据知识库需要满足一定的标准,如可以确保数据集的长期保存,为提交的数据集提供机密审查,为提交的数据集提供稳定的标识符,允许公众对数据的访问不受不必要的限制[23]。我国数据期刊应选取发展较好的、稳定的数据知识库开展合作,如Science Data Bank等,在论文出版前将数据集存储到相应的数据知识库中,并获得一个DOI,还可以像《开放科学数据》期刊一样,将数据论文定期存放在图书馆中,以确保科研数据的长期保存。

基于数据生命周期模型的国外数据期刊政策研究

图1 数据期刊出版数据论文简要流程图

3.3 注重保护作者权益

数据期刊均十分注重保护作者权益,鼓励甚至强制规定作者采用CC-BY许可协议,但是不建议对数据使用施加商业或其他限制的许可协议类型。对于开放获取的数据论文,作者通常保留版权,授权出版商出版论文,授权第三方在注明原作者的条件下使用论文。对于数据集,期刊通常要求所发表论文中描述的数据集在非商业使用的情况下提供免费获取,包括评审阶段和被录用以后,但要求用户必须对所用的科学数据进行数据引用,以奖励作者的贡献,保护数据集作者的权益。《科学数据集论文》等期刊推荐使用CC0许可协议开放数据集[37]。我国的《中国科学数据》期刊建议作者对其数据集使用CC-BY4.0版本,CC-BY较CC0许可协议其开放程度较低、适用范围较窄(CC-BY许可协议不适用于软件等对象的描述),可能会在一定程度上限制科学数据的开放共享和利用。

3.4 鼓励数据引用采用国际标准格式

促进数据引用是数据期刊创建和出版的重要目标之一,国际数据期刊十分鼓励科研人员的数据引用行为。科学数据引用有利于促进科学数据开放共享,研究人员愿意共享科研数据;促进科学数据的发现、重复利用和溯源,减少数据伪造、数据造假和数据剽窃行为,净化学术风气。科学数据引用和学术论文引用同等重要,是研究人员科研成果的重要组成部分,科学数据引用应该被纳入科研评价体系中,对研究人员的数据贡献给予相应的奖励。数据期刊应对科研人员引用其出版的数据论文和数据集提供详细的指导和要求,大多数数据期刊使用国际组织有关科学数据引用的标准和格式,如DataCite引用标准、Force11引用标准、哈佛引用格式,我国目前尚未制定关于科学数据引用统一的标准规范,建议我国数据期刊采用国际组织机构的引用标准。

 参考文献:

  [1]Science as an Open Enterprise[EB/OL].[2016-12-02].https://royalsociety.org/~/media/royal_society_content/policy/projects/sape/2012-06-20-saoe.pdf.

  [2]刘凤红,崔金钟,韩芳桥,等.数据论文:大数据时代新兴学术论文出版类型探讨[J].中国科技期刊研究,2014,25(12):1451-1456.

  [3]Candela L,Castelli D,Manghi P,et al.Data journals:A survey[J].Journal of the Association for Information Science and Technology,2015,66(9):1747-1762.

  [4]刘晶晶,顾立平.数据期刊的政策调研与分析——以Scientific Data为例[J].中国科技期刊研究,2015,26(4):331-339.

  [5]欧阳峥峥,青秀玲,顾立平,等.国际数据期刊出版的案例分析及其特征[J].中国科技期刊研究,2015,26(5):437-444.

  [6]雷秋雨,马建玲.数据期刊的出版模式与发展研究[J].图书与情报,2015(1):112-116.

  [7]DataONE[EB/OL].[2016-12-03].http://www.dataone.org/.

  [8]师荣华,刘细文,ShiRonghua,等.基于数据生命周期的图书馆科学数据服务研究[J].图书情报工作,2011,55(1):39-42.

  [9]Dataset Papers in Science[EB/OL].[2016-12-06].http://www.hindawi.com/journals/dpis/.

  [10]Earth System Science Data[EB/OL].[2016-12-08].http://www.earth-system-science-data.net/.

  [11]Geoscience Data Journal[EB/OL].[2016-12-08].http://onlinelibrary.wiley.com/journal/10.1002/(ISSN)2049-6060.

  [12]Scientific Data[EB/OL].[2016-12-09].http://www.nature.com/sdata/data-policies.

  [13]Open Health Data[EB/OL].[2016-12-09].http://openhealthdata.metajnl.com/about/.

  [14]黄如花,李楠.高校图书馆参与科学数据验证的前景分析[J].图书情报工作,2016,60(3):15-20.

  [15]Interactive Public Peer Review[EB/OL].[2016-12-08].http://www.earth-system-science-data.net/peer_review/interactive_review_process.html.

  [16]Guidelines for Reviewers[EB/OL].[2016-12-08].http://onlinelibrary.wiley.com/journal/10.1002/(ISSN)2049-6060/homepage/guidelines_for_reviewers.htm.

  [17]For Referees[EB/OL].[2016-12-11].http://www.nature.com/sdata/policies/for-referees.

  [18]Editorial Policies[EB/OL].[2016-12-12].http://openhealthdata.metajnl.com/about/editorialpolicies/.

 [19]Research Integrity[EB/OL].[2016-12-12].http://datascience.codata.org/about/research-integrity/.

  [20]王琼,曹冉.英国高校科研数据保存政策调查与分析[J].中国图书馆学报,2016,42(5):102-115.

  [21]司莉,辛娟娟.英美高校科学数据管理与共享政策的调查分析[J].图书馆论坛,2014(9):80-85.

  [22]Horizon 2020[EB/OL].[2016-12-07].http://ec.europa.eu/programmes/horizon2020/.

  [23]田稷,陈珲夏.数据期刊及数据论文定量分析与思考[J].图书馆论坛,2016,36(3):42-48.

  [24]Author Guidelines[EB/OL].[2016-12-08].https://www.hindawi.com/journals/dpis/guidelines/.

  [25]Publication policy[EB/OL].[2016-12-10].http://www.earth-system-science-data.net/about/publication_policy.html.

  [26]Recommended Data Repositories[EB/OL].[2016-12-10].http://www.nature.com/sdata/policies/repositories.

  [27]Recommended Repositories[EB/OL].[2016-12-09].http://openhealthdata.metajnl.com/about/.

  [28]Article Processing Charges[EB/OL].[2016-12-09].https://www.hindawi.com/journals/dpis/apc/.

  [29]License and copyright agreement[EB/OL].[2016-12-13].http://www.earth-system-science-data.net/about/licence_and_copyright.html.

  [30]Copyright Notice[EB/OL].[2016-12-13].http://openhealthdata.metajnl.com/about/submissions/.

  [31]黄如花,李楠.国外科学数据引用规范调查分析与启示[J].图书馆学研究,2016(10):2-9.

  [32]Data policy[EB/OL].[2016-12-14].http://www.earth-system-science-data.net/about/data_policy.html.

  [33]Author Guidelines[EB/OL].[2016-12-14].http://onlinelibrary.wiley.com/journal/10.1002/(ISSN)2049-6060/homepage/ForAuthors.html#dataset_reference.

  [34]Data policy[EB/OL].[2016-12-13].http://www.nature.com/sdata/policies/data-policies.

  [35]全球变化科学研究数据出版系统[EB/OL].[2016-12-12].http://www.geodoi.ac.cn/WebCn/Default.aspx.

  [36]《中国科学数据(中英文网络版)》[EB/OL].[2016-12-12].http://www.csdata.org/p/.

weinxin
我的微信公共号
我的微信公招扫一扫

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: