- A+
刘晶晶1,2 马建华1
(1.中国科学院文献情报中心 北京 100190;2.中国科学院大学 北京 100049)
摘 要:科研数据是开展科学研究的重要支撑条件。通过网络调研,并结合具体案例,详细分析了科研数据开放共享的三种实现途径,并指出三者是相互关联,层层嵌套的整体:数据知识库存储和发布科研数据,在此基础上,数据期刊发表经过同行评议的科研数据描述符,继而学术期刊能够发表有可重复验证的科研数据所支撑的学术论文。
关键词:科研数据 数据共享 数据知识库 数据期刊 数据说明文件
DOI 10.3969/j.issn.1002-1965.2015.10.025
1 科研数据是开展科学研究的重要支撑条件
科研数据是指在科技活动中(实验观测调查等)或通过其他方式所获取的反映客观世界本质特征变化规律等的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集[1]。科学研究是一个循环的、动态的过程,科研数据不仅是科学研究的结果,更是进一步发展科技和从事科研的基石[2-3]。科研人员基于数据来思考、设计和开展科学研究,越来越多的研究是建立在对已有科研数据重用的基础上,可理解的科研数据成为支持科学结论检验的重要依据[4],这正是2009年微软在《The Fourth Paradigm》[5]中所描述的新型科研方式——数据密集型科研(data intensive science)。科研数据作为科学研究的重要组成部分,不仅是一项研究成果是否可信的证据,更是科学群体“判断、同意、拒绝、理解该项工作以及进一步知晓并重用数据的基础”[6]。科研数据已然成了科技界的“一等公民”(First-class Citizens)[7]。
2 科研数据开放共享势在必行
科研数据具有重要的价值。孙九林院士曾经指出“科研数据作为一种资源,不仅是信息和知识的源泉、科学的基石,还是知识创新的发动机和思想库、人类社会持续发展的动力,具有巨大的科学价值、社会价值和经济价值”[8]。欧洲研究大学联盟( The League of European Research Universities,LERU) 在2012 年12 月发表开放科研数据的声明,也指出“开放科研数据代表科学研究方式的革命性变化,需要重视向数据驱动的研究转变”[9]。美国国家科学基金会( National Science Foundation,NSF)在《21世纪科学研究的信息化基础设施》[10]报告中,明确提到“新的科学机遇来自于越来越有效的数据组织、共享和利用。未来的科学技术创新将越来越倚重于科学数据的优势,以及通过成熟的数据挖掘、集成、分析与可视化工具将其转化为信息和知识的能力”。科研数据开放共享的必要性由此可见。
在已有的、高质量的、可供获取的科研数据的基础上,科研人员能够对已有研究结果验证,促进科学研究的检验和重复机制,进而减少科学不端行为;还可以与其他数据进行整合,利用现有数据提出新的研究问题,进行更多更深入的知识管理和内容挖掘;有助于扩大公共资助的效果,使其为公众所有;有助于增加引用的机会,承认科研数据提供者的贡献,促进科研评价体系的完善和多元化[11-12]。原科技部部长徐冠华院士曾说过:“科研数据共享势在必行,科研是群体性的活动,数据是最重要的基础,开展科研数据共享的重要性丝毫不亚于发表学术论文”[13]。
3 科研数据开放共享的三种途径
为了有效地促进科研数据开放共享,科研人员逐渐形成了较为规范的数据权益贡献体系,以及较为系统的内容审核、格式规范、共享引用要求。整理科研数据开放共享的三种途径[14-15],如表1所示。
表1 科研数据开放共享的三种途径
3.1 数据知识库 数据知识库(data repository),因其自身随着科学技术方式和环境的变化而发展,面对不同的学科领域、不同的数据形态、不同的应用层面有着不同的特点。有学者认为它是存储和管理科研数据、支持科研活动及其知识创造的数字知识库[16];也有学者认为它是一种信息基础设施,用以确保科研人员在使用科研数据过程中最大的获取性、稳定性和可用性[17]。数据知识库是推进科研数据开放共享的基础环节,在数据质量审核、组织存储、共享引用方面都需要厘清明晰的规范要求。
a.数据知识库应该做好科研数据的质量审核。数据知识库必须要对发布的数据内容进行严格审查和组织,确保文档经过同行评议,其元数据是规范、正确、可用的。数据知识库还应当对包含个人的、敏感的或不合适的信息进行内容审查,并在发现内容不符合条件时提醒提交者或出版商。另外,数据知识库应该保证文件是可打开的、未损坏的,且不包含通过商业手段可发现的病毒。
b.数据知识库应该做好科研数据的组织存储。科研数据的组织存储,需要明晰数据从何而来,存储在什么位置(如何标识)以及如何长期保存。下面进行具体的说明。
数据知识库的数据来源包括多种形式,可以通过创建者提交,也可以通过爬虫等技术从其他数据库抓取,经过进一步整理衍生而成。
数据知识库为数据分配和提供数字对象标识符(Digital Object Identifiers,DOIs)来存储数据。以Dryad为例,通常每个数据包的DOI为“http://dx.doi.org/10.5061/dryad.[NNNN]”格式,其中,[NNNN]4位数字用于标识数据包编号,在其后加注文件的版本信息,格式为“/1”,“/2”等(“/”前的数字用于表示该数据包的第几个文件)。当新版本文件发布时,在版本信息后加注更新信息,如“.2”,“.3”等。因此,如果有一条文件信息如下“http://dx.doi.org/10.5061/dryad.[NNNN].2/2.3”,则表示此文件为“http://dx.doi.org/10.5061/dryad.[NNNN]”数据包的第2个文件的第2版的第3次更新后内容。
出于长期保存需要,数据知识库会对数据进行迁移:在与作者签订知识产权协议的基础上,对数据内容的格式进行转换,确保数据在所占容量、存储效率等方面便于传播和再利用,保证对数据内容的日更新频率,及时将提交者提交的内容存储到远程服务器以及长期保存系统中。比如Dryad和figshare均与CLO-CKSS[18]合作保存数据内容的副本,迁移数据格式到最新版本,保证数据可无限期访问。
c.科研数据知识库应该做好科研数据的共享引用。为维护数据知识库的良好有序运作,使用者引用数据知识库中的数据或借鉴同行学者内容时,应该尽量遵守公认的学术规范。该规范格式一般由知识库自行规定。如Dryad要求用户采用的引用格式[19]是:<Creater>(<Publication Year>) Data from:<Title>.Dryad Digital Repository.<Identifier>。除了引用ID识别码外,也可以对存储科研数据的知识库网址进行引用。如ArrayExpress功能基因组学实验数据库要求在引用数据时包括数据的识别符和ArrayExpress[20]主页网址(www.ebi.ac.uk/arrayexpress)。若干情况下,一些知识库也会推荐采用DataCite的引用格式或者类似格式。如GEO(Gene Expression Omnibus)建议提交者引用其识别符(GSExxx),同时也建议用户引用他人的原文和该文章所对应数据记录的识别符[21]。
简而言之,数据知识库通过一定的数据提交机制,组织相关领域专家进行严格的同行评审,在确保数据质量的基础上,进行数据发布,为数据提供唯一的数字对象标识符,使其能够永久访问和追溯,最后,通过标准的引用格式以利于数据共享和重用。通过数据知识库进行科研数据共享的优势在于拥有独立的数据出版政策和评审标准,但是也正由于此,可能会造成不同学科不同数据知识库之间的共享障碍。
3.2 数据期刊 数据期刊(data journal)是一种以论文形式发表数据的新型出版物。所谓数据论文(data paper)是指按照学术规范正式出版的,可被检索的元数据文件,用以描述单个或一组可在线访问的数据集[22]。数据论文的内容主要是对数据采集、获取、处理等过程和方法的描述,不涉及对数据和研究结果的分析、推论、发现以及假设论证,其目的是让科研群体更好地发现、获取、理解与复用数据,并再次进行科研创新[23-24]。作为一种期刊形态,在促进科研数据开放共享方面,特别需要注意内容质量审核、内容提交格式和内容共享引用方面的规范。
3.2.1 数据期刊内容质量审核规范 评审将评估生成数据过程的技术质量、数据描述的完整性、所得数据集的重用价值、以及与现有学科标准的一致性。大多数数据描述符将由至少一个具有相关实验技术专业知识的科学家和一个数据标准专家进行评审。审核过程中需要考虑到以下几点:实验方法的有效性;第三方使用数据的完整性;数据描述符与数据内容一致连贯;数据能否被开放获取和使用等[25]。
3.2.2 数据期刊内容提交格式规范 数据期刊以文章的类型发布有科学价值的数据描述,也就是数据论文。数据论文,遵循一定的数据标准、计算机可读、可检索,具有迅速、严格、开放、可见、相互链接等特点,能够将传统的叙述性内容与结构化描述的研究数据结合在一起,提供一个新框架,有利于信息检索、分析、挖掘以及相关利用,促进科学探索[26]。以Scientific Data[27]为例,要求的数据集主要是指计算或策划数据,以及通过实验或观察产生的数据,包括“技术验证”(Technical Validation)和“用法说明”(Usage Notes)部分,另外在2014年11月13日也开始发布社会科学领域的数据[28]。
数据论文应当对科研数据进行结构化和规范化描述,从而有利于科研数据的发现、解释、重用和再生。在其手稿中需要包含以下要素并符合对应的格式要求[29],如表2所示。
3.2.3 数据期刊内容共享引用规范 数据期刊要求作者在提交手稿时需要附带引用权限的声明规定,其他人在使用作者提供的数据时,应该遵循CC BY或CC BY-NC知识共享许可协议[30]。例如ScientificData认同并遵循数据引文原则的联合声明,要求作者在提交手稿时附带有权引用数据的书面保证。如果其他人引用数据期刊中的数据论文,则建议用传统的参考文献格式引用数据描述符,如果期刊支持数据引用,则列举出所有引用的数据集。以ScientificData为例,其引用格式包含作者、题目、期刊、卷、文章号、DOI号、年代。如:A.Alexandersson, T.Steingrimsdottir,J. Terrien,et al. The Icelandic 16-electrode electrohysterogram database. Sci. Data 2:150017 doi: 10.1038/sdata.2015.17(2015)”[31]。
表2 数据描述符格式要求
简而言之,数据创建者将数据存储在一定的数据知识库中,并按照规定的格式对科研数据进行结构化和规范化描述,撰写数据论文,提交到数据期刊,二者之间通过数据的唯一标识符、数据的URI等属性进行关联。通过数据期刊进行科研数据开放共享,有利于科研数据的检索、重用和引用,在引用数据论文的同时,也注意到对原始科研数据集的贡献认可,有利于丰富科研评价体系。但是共享的基础有赖于数据论文与存储于数据知识库中的原始数据之间正确、持久、稳定的链接。
3.3 学术期刊的数据说明文件 一直以来,出版界都将科学成果的再现看作是一个高质量学术刊物对于科学界所应担负的责任,学术期刊也不断致力于探索科学论文和科研数据的发表、传播和引用[12]。国际上有很多期刊都制定了“科研数据共享政策”,要求作者在向期刊投稿时必须向期刊编辑和同行评审专家提供相关的科学数据或者可以获得该研究涉及的科学数据的第三方存储库的存取号,如果不能提供,则必须进行说明[15]。比如:BiodiversityDataJournal[32]、Ecology[33]、EarthSystemScienceData[34]等。学术期刊的说明文件,主要是基于在同行评审过程中,评审专家可以将其作为评审参考;在作品发表以后,感兴趣的科研人员可以获取所需信息并再现作者的研究成果。接下来将从内容要求、格式规范及存储引用三个方面来分别论述。
3.3.1 数据说明文件的内容要求 学术期刊的数据说明文件(data explanatory material)有论文附件(appendices)和论文补充( supplements)两种形式[35]。论文附件即论文主要内容的支持数据,包括方法、图表、方程及视频与音频文件;论文补充则指不适合印刷的一些有效电子格式文件数据,如原始与衍生数据集、仿真数据代码及统计分析软件等。NIH将此类数据定义为“最终数据”(final data),也就是直接形成论文结论,可以验证科研成果的必要数据材料[36]。以PLOS数据政策为例,规定必须提交的数据为“最小数据集”(minimal dataset),也就是形成论文结论和完整再现报告研究结果所需要的数据集和相关元数据[37]。
3.3.2 数据说明文件的格式规范 作为补充材料,依附出版物发表的数据说明文件,应当做好格式规范要求,以利于科研人员访问重用时能够对数据有效抽取。科研人员必须按照补充材料的格式、长度大小和要求,进行提交,并且多数情况下需要提交简短的说明文件(见表3)。/常见的数据类型及格式有:
表3 常见的数据类型及格式
当然,不同的学科领域内,也会有自身认可的特有数据标准。例如,聚集光谱测定的数据应当以mzML格式提供[38],分子间相互作用数据应遵循MIMIx指南[39]。
3.3.3 数据说明文件的存储引用 在科研数据的数据量较小时,一些期刊便要求作者将这些数据作为科学论文附件形式随论文一起发表,并存储在出版社自己的网站上或者作者本人提供的可承担数据安全、公开访问的网站。当数据量较大时,建议存储到信赖度高的数据知识库内获得数据登记号,以利于长期保存。
为了更容易赢得数据共享和出版的学术信誉,推荐DataCite[40]约定的数据格式,持久的标识符,如数字对象标识符DOI名称,可以作为永久的URL链接。推荐的格式[41]如下:
Creator (Publication Year): Title. Publisher. Identifier
Creator (Publication Year): Title. Version. Publisher. Resource Type. Identifier
比如数据集引用:T.Irino,R. Tada (2009): Chemical and mineral compositions of sediments from ODP Site 127‐797. Geological Institute, University of Tokyo.
指向如下论文:Irino, Tomohisa; Tada, Ryuji (2000): Quantification of aeolian dust (Kosa) contribution to the Japan Sea sediments and its variation during the last 200 ky. Geochemical Journal, 34(1), 59-93, http://www.terrapub.co.jp/journals/GJ/pdf/3401/34010059.pdf[43]。
当然,具体到学科领域或者专业出版商以及学协会等可能会制定自身的数据说明文件要求,比如美国物理学会(American Physical Society,APS)于2013年4月发布了APS期刊补充材料指南[44],对如何存储、如何在文章中引用、如何进行检索做了规范。
简而言之,学术期刊的数据说明文件,是最传统和最直接的数据共享方式,数据与文章紧密结合,通过对支撑文章结论的数据进行补充,有利于读者和评审专家的访问、理解。其局限在于,数据说明文件通常有规模大小限制,还存在着长期保存等方面的不确定性,而且大多数情况下,由于这些材料不具有独立性,想要访问它们只能通过指定的文章。
4 科研数据开放共享三种途径内在关系
科研数据开放共享有三种形式——数据知识库、数据期刊、学术期刊的数据说明文件,三者之间是相互关联,密不可分,层层嵌套的整体,如图1所示。
图1 科研数据开放共享三种形式的内在关系
来源:林和弘, 村山泰啓.研究データ出版の動向と論文の根拠データの公開促進に向けて[J].科学技术动向研究, 2015,148:4-9
数据知识库对数据集的元数据描述,是对数据质量的基本控制;在数据知识库存储和发布科研数据的基础上,数据期刊发表经过同行评议的科研数据描述符;继而学术期刊能够发表有可重复验证的科研数据所支撑的学术论文。以自然出版集团旗下数据期刊ScientificData为例,两大通用知识库figshare和Dryad合作,进行数据存储和查验,确保所发表的数据论文的影响力和公信力,同时它的出版物将与自然出版集团期刊和外部出版商的相关研究出版物连结起来,让科学家更容易在实际数据、丰富的数据描述和研究发现成果三者之间轻松驾驭探索[45]。
数据知识库、数据期刊和学术期刊的数据说明文件,好比是促进科研数据开放共享的三驾马车,既需要做好最基础的工作,又需要相互促进,共同推动科学这项开放事业的繁荣发展。未来研究应着眼于形成一个统一、完整、系统的科研数据共享和出版体系,并且探索各利益相关者在数据提交、数据审核、数据发布、数据存储和数据引用等环节的权益问题。
参考文献:
[1] 司 莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013(1):61-66.
[2] Gary Marchionini,杨冠灿,芦 昆(译).科研数据管理:保障数据质量,促进ischools新科学研究[J].图书情报知识,2013(4):4-9.
[3] 彭 洁,贺德方,张英杰.数字出版环境中科学数据引用的实现路径及策略调查分析[J].数字出版,2014(4):57-61.
[4] The Royal Society. Science as an Open Enterprise[EB/OL].[2015-05-04].http://royalsociety.org/policy/projects/science-public-enterprise/report/.
[5] Tony hey, Stewart Tansley, Kristin Tolle.TheFourthParadigm: Data-Intensive Scientific Discovery.第四范式:数据密集型科学发现[M].潘教峰,张晓林,等译.北京:科学出版社,2012.
[6] Data Committee on Issues in the Transborder Flow of Scientific Data, National Research Council.Bits of Power: Issues in Global Access to Scientific [M].Washington:National Academies Press,1997.
[7] Bolikowski L, Houssos N, Manghi P,et al.Data as "First-class Citizens"[EB/OL].[2015-05-04]http://www.dlib.org/dlib/january15/01guest_editorial.html.
[8] 孙九林.科学数据资源与共享[J].中国基础科学,2003(1):30-33.
[9] LERU.Open Research Data[EB/OL][2015-05-04].http://www.leru.org/files/publications/Open_Access_to_Research_Data-FINALdocx.pdf.
[10] Cyberinfrastructure Vision for 21st Century Discovery[R]. National Science Foundation, Cyberinfrastructure Council, 2007.
[11] Christine L.Borgman,青秀玲. 科研数据共享的挑战[J]. 现代图书情报技术,2013(5):1-20.
[12] Hrynaszkiewicz I,新谷 洋子.データの再利用を促進するオープンアクセス·オープンデータジャーナル[J].情報管理,2014,57(9):629-640.
[13] 科学数据共享工作应该受到尊重和支持——徐冠华院士访问地球系统科学信息共享中心[EB/OL]. [2015-05-04]. http://www.most.gov.cn/kjbgz/201002/t20100221_75953.htm.
[14] 顾立平.科学数据权益分析的基本框架[J].图书情报知识,2014(1):34-51.
[15] 刘凤红, 崔金钟, 韩芳桥, 等. 数据论文:大数据时代新兴学术论文出版类型探讨[J]. 中国科技期刊研究, 2014, 25(12):1451-1456.
[16] 刘 峰,张晓林,孔丽华.科研数据知识库研究述评[J].现代图书情报技术,2014(2):25-31.
[17] Pampel H.呈现科研数据知识库:re3data.org注册机制[J].顾立平译.现代图书情报技术,2014(3):26-34.
[18] CLOCKSS[EB/OL].[2015-05-04].http://www.clockss.org/clockss/Home.
[19] Dryad-FAQ[EB/OL].[2015-05-04].http://datadryad.org/pages/faq#using.
[20] Array Express-Submitting Data to ArrayExpress (General) [EB/OL].[2015-05-04]. http://www.ebi.ac.uk/arrayexpress/help/faq.html#cite.
[21] GEO-citing and Linking to the GEO Database [EB/OL]. .[2015-05-04] http://www.ncbi.nlm.nih.gov/geo/info/linking.html.
[22] Paul N, Peter C. Data Papers-peer Reviewed Publication of High Quality Data Sets[J]. International Journal of Robotics Research, 2009, 28(5):587.
[23] Candela L,Castelli D,Manghi P,et al. Data Journals: A Survey[J]. Journal of the Association for Information Scienceand Technology, 2015.
[24] Chavan V,Penev L. The Data Paper: a Mechanism to Incentivize Data Publishing in Biodiversity Science[J]. BMC Bioinformatics, 2011, 12(Suppl 15):S2.
[25] Scientific Data-editorial and Publishing Policies[EB/OL].[2015-05-04].http://www.nature.com/sdata/for-authors/editorial-and-publishing-policies.
[26] 刘晶晶,顾立平.数据期刊的政策调研与分析[J].中国科技期刊研究,2015,26(4):331-339.
[27] Scientific Data [EB/OL]. [2015-05-04]. http://www.nature.com/sdata/.
[28] Scientific Data Now Inviting Submissions from the Social Sciences[EB/OL]. [2015-05-04]. http://blogs.nature.com/scientificdata/2014/11/13/scientific-data-now-inviting-submissions-from-the-social-sciences/.
[29] Format of Data Descriptors[EB/OL].[2015-05-04].http://www.nature.com/sdata/for-authors.
[30] Open Access[EB/OL]. [2015-05-04]. http://www.nature.com/sdata/about/oa.
[31] Citation Example[EB/OL]. [2015-05-04]. http://www.nature.com/articles/sdata201517.
[32] Biodiversity Data Journal[EB/OL]. [2015-05-04]. http://biodiversitydatajournal.com/ .
[33] Ecology[EB/OL]. [2015-05-04].http://www.journalofecology.org/view/0/index.html.
[34] Earth System Science Data[EB/OL]. [2015-05-04]. http://www.earth-system-science-data.net/.
[35] 何 琳,常颖聪.国内外科学数据出版研究进展[J].图书情报工作,2014,58(5):104-110.
[36] National Institutes of Health. NIH Data Sharing Policy and Implementation Guidance[EB/OL]. [2015-05-04]. http://grants.nih.gov/grants/policy/data_sharing/data_sharing_guidance.htm.
[37] Lin J.Make Data Sharing Easy: PLOS Launches its Data Repos-itory Integration Partner Program [EB/OL]. [2015-05-04].http://blogs.plos.org/tech/make-data-sharing-easy-plos-launches-its-data-repository-integration-partner-program/.
[38] BioMed Central. Availability of supporting data [EB/OL]. [2015-05-04]. http://www.biomedcentral.com/about/supportingdata.
[39] PNAS.Editorial Policies[EB/OL]. [2015-05-04]. http://www.pnas.org/site/authors/journal.xhtml.
[40] Datacite[EB/OL]. [2015-05-04].https://www.datacite.org/node.
[41] Datacite-how to Cite Your Data[EB/OL]. [2015-05-04].https://www.datacite.org/services/cite-your-data.html.
[42] Citation Example[EB/OL]. [2015-05-04]. http://doi.pangaea.de/10.1594/PANGAEA.726855.
[43] Citation Example[EB/OL]. [2015-05-04].http://www.terrapub.co.jp/journals/GJ/pdf/3401/34010059.pdf.
[44] APS-supplemental-material-instructions[EB/OL]. [2015-05-04].http://journals.aps.org/authors/supplemental-material-instructions.
[45] Scientific Data to Complement and Promote Public Data Repositories[EB/OL]. [2015-05-04]. http://blogs.nature.com/scientificdata/2013/07/23/scientific-data-to-complement-and-promote-public-data-repositories.