国家科技图书文献中心

NSTL统一文献元数据标准3.0(正式版)

  • 1 导言

    国家科技图书文献中心(以下简称NSTL)面向全国用户提供全面的科技文献数据检索和原文传递服务。经过多年的发展,NSTL已经形成了从科技信息采集、加工、发布到服务的数字化业务流程,各个子系统相互协同、相互依赖,共同为用户提供服务。而NSTL原有的元数据标准仅能满足印本时代数据库建设的需要,无法满足描述复合资源和数字资源的需要。建设NSTL统一文献元数据标准,支持多种数据的统一描述,形成一致的数据描述体系,对各个层面业务系统和服务系统的建设在数据层面进行规范,将为NSTL数据集成融合、数据分析和数据挖掘,以及不同应用服务系统间的互操作建立统一的数据基础。

    本标准的编制遵循文献元数据制订指南(以下简称指南)的要求,基本流程包括:(1)功能需求分析(2)领域模型构建(3)设计元数据记录(4)编制使用指南(5)计算机描述语言做形式化描述。在编制过程中,分析了NSTL系统建设和服务的功能需求,构建了满足需求功能的领域模型。确定了13个元素集,包括来源、单篇文献、主题/分类/关键词、贡献者/机构、会议、基金、操作信息、获取管理、全文文件、图、表、附加资料和参考文献元素集。不计重复元素和属性,本标准共包含97个描述性元素、53个辅助性元素、49个属性以及4个特殊字符元素。编制了指导描述性元素内容选取和著录需要的使用指南,最后采用XML语言和DTD分别对标准进行了形式化描述,支持在线的数据验证和解析。元数据记录由元素和属性共同构成,通过元素和属性的灵活组合来描述多样化、多层次的资源。部分元素复用了ANSI/NISO Z39.96-2015,期刊文档标签集(JATS 1.1版本)中的元素定义。

  • 2 功能需求分析

    2.1 愿景

    NSTL十三五发展战略明确了从文献保障为主向知识服务基础支撑保障转型的发展方向。统一文献元数据标准的设计要充分考虑NSTL未来五年或更长时间的发展需求,数据标准规范不仅要支持文献的发现的需求,也要支持基于数据的分析评价和知识服务的需求。为NSTL建成国际一流的科技文献信息发现系统,实现从信息服务向知识服务的转型,提供基础的数据标准规范,保证NSTL发展战略目标的实现。

    统一文献元数据标准具体的目标是满足NSTL数字业务系统中各个系统应用的需要。涵盖所有NSTL购买、交换、赠与等方式获取的科技类信息资源,包括对期刊、会议录、科技丛书、科技专著、文集汇编、工具书、科技报告、期刊论文、会议论文、学位论文、开放课程、开放课件等文献的统一描述和组织,并具有扩展性,可描述更多的文献类型。可统一描述文献的印刷版本、数字版本,统一描述文献对象各个层次的信息,满足NSTL数字业务流程中文献数据采集、管理和服务的需求。

    2.2 基本原则

    2.2.1 模块化设计

    模块化是现代元数据设计最重要的特征,根据实体关系方法分析抽象出资源对象的实体关系模型,对资源的描述就是对模型中不同实体进行描述,再组合而成。领域模型中具有共同特点的实体对象可复用描述不同层面的数据对象,例如机构实体,实际上可以是研究者所在机构,也可以是出版机构、资助机构和学位授予机构,机构的元素构成是一致的,成为一个公用的实体模块在描述中使用。也为数据管理规范打下基础。

    2.2.2 最小粒度原则

    统一文献元数据标准确定的数据描述粒度尽可能细致到最小层面,按最小粒度设计元素或属性,以满足分析评价和知识服务的需要。例如机构字段,可细分为一级机构名称、二级机构名称、所在国家、城市、地址等,这样描述为精确定位机构和统计分析机构的产出建立了基础。在统一文献元数据标准的设计中,最小粒度原则贯穿各个层面,尽可能细致地描述文献对象的各个层面信息,为数据的分析评价打下基础。

    2.2.3 协同化原则

    统一文献元数据标准的设计目的是满足NSTL数字业务系统中各个子系统应用的需要。各个子系统可以基于自己的管理需要描述文献对象的不同深度的内容,但需要遵循同样的数据标准,为后续数据的复用和深入加工建立良好的基础。例如对一篇期刊论文的描述,数据格式应是统一的,编目系统的描述和数据加工系统的描述应协同一致。统一文献元数据标准在数据模型和数据描述上支持各个子系统协同管理的需要,各个子系统通过协同达到最大的数据管理效益。

    2.2.4 与国际相关标准兼容

    文献数据的管理已有较成熟的数据标准和规范,设计的文献元数据标准应与国际上主流的相关国际标准兼容,以便融入国际数据大环境。特别是充分借鉴DCMI、主流文献服务公司的数据标准和ANSI/NISO Z39.96等,为下一步广泛利用外部数据建立良好的基础,同时在元数据的设计上不仅考虑揭示文献的基本信息,也考虑揭示全文层面的图表和公式等信息,同时预留了全文描述字段内容,充分考虑服务的扩展和发展的需要。

    2.3 需求分析

    文献检索,包括:①按类型检索文献;②根据文献主题和内容检索文献;③根据文献特征和特定条件检索文献。

    文献识别,包括:①根据文献特征识别;②识别文献作者及其所在机构;③通过全球通用的DOI识别文献;④通过本地通用的Local ID识别文献;⑤识别全文的版本和载体形式。

    全文获取,包括:①支持用户获取全文;②支持对各种载体和版本全文的获取,提供能够链接到全文的多种选择;③支持对开放获取全文文献的获取。

    文献分析评价,包括:①支持引文关系的描述和计量名称识别;②支持人名、机构、资助者和项目的产出分析评价;③支持面向学科的文献分析评价。

    获取管理,包括:①文献的印本馆藏信息和网络版本获取授权方式;②来自作者、出版社和其它各个方面的开放获取资源的授权信息。

    数据管理,包括:①数据产生、更新、删除等时间责任人记录;②描述数据状态和数据层次;③支持数据审计。

    2.4 用例分析

     通过用例图分析与数据标准相关的人员和需求,见图1:需求用例。

    图1 需求用例

    各类人员的需求是不同的,最终用户和数据分析人员的需求是引领式的需求,确定了需求的方向,核心需求为检索文献,识别文献,获取文献,基于数据的分析评价需求,系统用户的需求为通过接口检索访问数据。数据处理人员、数据管理人员的需求源自用户的需求,并将用户的需求具体化到数据描述过程和管理过程中,系统开发人员则根据各方的需求设计合适的数据结构和数据访问方式。在用例中最终用户的需求驱动了数据描述和数据结构的细化。

  • 4 术语和定义

    下列术语和定义适用于本标准。

    4.1 文献 document

    在文献工作过程中作为一个单元处理的记录信息或实物对象。本标准所指的文献涵盖NSTL所有的科技类资源,包括期刊、会议录、科技丛书、科技专著、文集汇编、工具书、科技报告、期刊论文、会议论文、学位论文、开放课程、开放课件等。

    4.2 期刊 journal

    以定期或不定期方式连续出版,每期载有一定编号顺序论文的出版物。

    4.3 会议录 conference proceedings

    将开展学术会议时收到的或经讨论,有价值的论文进行编辑出版的出版物。专业会议录通常连续正式出版,还包含了与会者对论文的讨论记录。会议论文论文集正式出版和内部交流两种形式并存。

    4.4 科技丛书 scientific and technical series

    在一个总题名下汇集多种单独著作成为一套,并以编号或不编号的形式出版的科技类图书。

    4.5 科技专著 scientific and technical book

    围绕某一学科领域或某一专题进行较为集中、系统、全面、深入论述的科技类著作。

    4.6 文集汇编 collection book

    文献的汇集。按一定的要求把某一作者、某一专题或某一知识部门的作品或文件资料选编汇集而成的出版物。

    4.7 工具书 reference book

    对给定主题的专门信息提供快速存取的文献。

    4.8 科技报告 scientific and technical report

    记录科学、技术研究成果或进展情况的文献,又称研究报告、科技总结报告或报告文献。

    4.9 期刊论文 journal article

    经过专家委员会或同行评议认可后发表在期刊上的论文。

    4.10 会议论文 conference paper

    在学术会议上宣读和交流的论文、报告或其它相关书面资料。

    4.11 学位论文 thesis

    申请人为证实其学位而提交的报道其研究与成果的文献。

    4.12 开放课程 open course

    教育机构、教师通过互联网以视频、报告等方式发布的可供他人免费使用或复制的学习或研究资源。

    4.13 开放课件 open courseware

    开放课程中的教学视频、教学课件及获取知识的软件工具等课程资料。

    4.14 元数据 metadata

    关于数据的数据。

    4.15 单篇文献 article

    能够阐述特定主题研究内容的一篇论文或报告。

    4.16 来源 source

    单篇文献载体或成册出版的出版物。

    4.17 数据标识符 data identifier

    能够识别文献数据对象(如来源、单篇文献、贡献者、机构、会议、基金、全文文件、图、表、附加资料、参考文献等)的标识符,不一定唯一。在本文档中,对来源、单篇文献来说,其标识符等同于其唯一标识符。

    4.18 数据唯一标识符 data unique identifier

    能够唯一识别文献数据对象(如来源、单篇文献、贡献者、机构、会议、基金、全文文件、图、表、附加资料、参考文献等)的标识符。包括NSTL赋予的数据唯一标识符、第三方来源机构或系统赋予的唯一标识符等。

    4.19 元素集 element set

    描述文献数据对象的元素集合。

    4.20 元素 element

    元数据的基本单元。

    4.21 属性 attribute

    描述和限定的元素相关信息且具有属性名和属性值。

  • 5 领域模型构建

    5.1 确定实体对象,并对实体对象命名

    根据NSTL业务的功能需求分析,通过实体分析技术,对期刊、会议录、科技丛书、科技专著、文集汇编、工具书、科技报告、期刊论文、会议论文、学位论文、开放课程、开放课件等各类资源进行研究和分析,可以归纳出与文献有关的13个元素集(即实体对象),包括来源元素集、单篇文献元素集、主题/分类/关键词元素集、贡献者/机构元素集、会议元素集、基金元素集、操作信息元素集、获取管理元素集、全文文件元素集、图元素集、表元素集、附加资料元素集和参考文献元素集。

    其中,来源元素集描述期刊、会议录、科技丛书、科技专著、文集汇编、工具书等来源信息;贡献者/机构元素集描述贡献者和机构信息,贡献者可以是作者、编辑者和指导人员等,机构可以是作者所属机构、文献的出版机构、会议的举办机构和基金项目的资助机构;获取管理元素集描述获取方式和使用授权信息;操作信息元素集描述数据的更新、处理状态等。

    领域模型抽象地表达重要的业务实体对象,并对每个实体对象进行唯一名称命名。NSTL统一文献元数据中的实体对象名称和重要属性具体如表1所示。

    表1 NSTL统一文献元数据中的实体对象

    5.2 确定实体对象之间的相互关系,定义实体对象之间的关联和约束

    领域模型中各个对象之间采用动词短语来为关系命名。经过分析,NSTL统一文献元数据的领域模型中,实体对象(元素集)之间的关系可以概括为5种:

    (1)组成关系。一个来源可以包含一篇或多篇单篇文献(hasArticle)。一篇单篇文献(或来源)可以有一个或多个全文文件(hasFulltext),一篇单篇文献(或来源)可以有一个或多个图表(hasFigure),一篇单篇文献(或来源)可以有一个或多个表(hasTable),一篇单篇文献(或来源)可以有一个或多个附加资料(hasSupplement),一篇单篇文献(或来源)可以有一个或多个参考文献(hasReference);

    (2)相关关系。一篇单篇文献(或来源)可以有一个或多个主题/分类/关键词(hasSubject),一篇单篇文献(或来源)可以有一个或多个贡献者(isCreatedBy/isEditedBy/isSuperviseBy),一篇单篇文献(或来源)可以由一个或多个机构出版(isPublishedBy),一篇单篇文献(或来源)可以发表在一个会议上(isPublishedAt),一篇单篇文献(或来源)可以由一个或多个基金资助(isFundedBy),一篇单篇文献(或来源)可以有一个或多个获取管理信息(isAvailableAs)和操作信息(hasOperation);

    一个贡献者可以属于一个或多个机构(AffiliatedInstitution),一个会议可以由一个或多个机构负责举办(isSponsoredBy),一个基金项目可以由一个机构资助(isFundedBy);

    (3)规范关系(hasAppellation)。来源、主题、贡献者/机构、会议、基金可分别对应一个规范记录;

    (4)沿革关系(isRelatedTo),来源与来源之间的关系,主要包括继承、部分继承、替代、部分替代、吸收、部分吸收等关系;

    (5)引用关系,主要包括引用关系(isCitedBy)、归一关系(isSameAs)等。

    5.3 领域模型图示

    分析和确定NSTL统一文献元数据的实体对象和实体对象关系后,采用UML语言直观形象地描述NSTL统一文献元数据的领域模型,实现不同人员之间准确的沟通。NSTL统一文献元数据的领域模型如图2所示。

    图2 NSTL统一文献元数据领域模型

    5.4 NSTL统一文献元数据领域模型的验证

    检验NSTL统一文献元数据领域模型的可行性,分析和整理NSTL各类型文献包含的元素集,并推演各类型元素集间的关系。归纳各类型文献资源的元素集构成如表2所示。

    表2 NSTL主要资源的元素集构成表

    其中对期刊的描述包含有5个元素集,分别是来源元素集、贡献者/机构元素集、主题/分类/关键词元素集、获取管理元素集和操作信息元素集,它们之间的关系可以概括如下:一本期刊即是一个来源,可以有一个或多个贡献者/机构(出版项),可以有一个或多个主题/分类/关键词,可以有一个或多个获取管理信息,可以有一个或多个操作信息。

    对期刊论文的描述包含有13个元素集,分别是来源元素集、单篇文献元素集、主题/分类/关键词元素集、贡献者/机构元素集、会议元素集、基金元素集、操作信息元素集、获取管理元素集、全文文件元素集、图元素集、表元素集、附加资料元素集和参考文献元素集,它们之间的关系可以概括如下:一篇期刊论文包含于一本期刊中;一篇期刊论文可以有一个或多个主题/分类/关键词;一篇期刊论文由一个或多个贡献者创作;一个贡献者属于一个或多个机构;一篇期刊论文可以发表在一个会议上;一篇期刊论文由一个或多个基金资助;一篇期刊论文可以有一个或多个全文文件;一篇期刊论文可以有一个或多个图;一篇期刊论文可以有一个或多个表;一篇期刊论文可以有一个或多个附加资料;一篇期刊论文可以有一个或多个参考文献;一篇期刊论文可以有一个或多个获取管理信息;一篇期刊论文可以有一个或多个操作信息。

    贡献者/机构元素集、主题/分类/关键词元素集、获取管理元素集和操作信息元素集是较为通用的元素集,对于期刊论文、会议论文、文集汇编析出文献、科技丛书析出文献、科技专著析出文献、工具书析出文献、课件,由于其加工对象是单篇文献或课件,为说明单篇文献或课件所在位置还需要对来源作一些描述,因此它们还共同拥有来源元素集。各类资源对象所包含的元素集及它们之间的关系,可参考期刊和期刊论文的描述和关系推导得出,在此不再赘述。

  • 6 元数据结构

    6.1 元素选取和定义

    6.1.1 元素选取原则

    本标准通过元素和属性表达复杂的数据对象,在元素和属性的选择和定义方面,部分元素复用了JATS1.1中的元素和属性。自定义了NSTL有实际需求的元素和属性。

    元素是元数据的基本单元,例如题名、摘要、作者等。属性更进一步地对元素进行描述和限定,例如使用xml:lang属性表达语种信息,使用date-type属性表达日期类型信息等,每个属性都会有属性名和属性值。

    本标准中,定义的元素分为描述性元素和辅助性元素。描述性元素用于描述来源、单篇文献、主题/分类/关键词、贡献者/机构、会议、基金、操作信息、获取管理、全文文件、图、表、附加资料和参考文献;辅助性元素对描述性元素进行封装,便于计算机对数据进行逻辑上的理解和处理。

    6.1.2 字母及符号定义

    (1)限制条件

    遵循GB/T 18391.3-2009,包含以下取值:

    1)M 必备(mandatory)

    表示元素或属性必须存在于一个特定的记录中。

    2)O 可选(optional)

    表示元素或属性可能存在于一个特定的记录中。

    3)C 条件必备(conditional)

    表示同层级的两个或多个元素中至少一个出现在记录中。

    (2)出现频次

    遵循DTD规范,包含以下取值:

    1)*

    即0..*,表示元素可能出现0次或多次。

    2)?

    即0..1,表示元素可能出现0次或1次。

    3)+

    即1..*,表示元素可能出现1次或多次。

    4)无符号

    即1,无符号表示元素必须出现,且只能出现1次。

    6.1.3 元素定义

    根据NSTL文献元数据制订指南要求,分别从9个方面对元素进行定义,见表3。从6个方面对属性进行定义,见表4。

    表3 元素定义表

    表4 属性定义表

    6.2 元数据框架和结构

    NSTL统一文献元数据框架以record为根节点,属性包括xsd:version、xml:lang(正文语种)。record中的元素source-meta、article-meta、subj-class-kwd、contrib-group、conference、funding-group、process-group、access-group、fulltext-file、fig-group、table-group、supplementary-material、ref-list分别对应领域模型中的来源元素集、单篇文献元素集、主题/分类/关键词元素集、贡献者/机构元素集、会议元素集、基金元素集、操作信息元素集、获取管理元素集、全文文件元素集、图元素集、表元素集、附加资料元素集和参考文献元素集。如图3所示。以下元数据结构图中的符号定义见6.1中的字母及符号定义中的出现频次部分。

    图3 NSTL统一文献元数据框架

    6.2.1 来源元素集结构

    来源元素集以“本”为单位进行描述,来源唯一标识符source-id默认为期唯一标识符,也可包括期刊品种唯一标识符、卷唯一标识符。具体标识类型通过source-id-type属性区分。

    其中,contrib、institution-warp、address元素结构与下文贡献者/机构元素集结构图中的这些元素结构一致。date元素结构与pub-date元素结构一致。限于篇幅,在来源元素集结构图中未详细列出。

    source-meta条件必备,如果与source-meta处于同一层级的article-meta没有出现,则source-meta必须出现,且出现频次为1,否则source-meta出现频次可为0。

    注:由于包含特殊字符sub、sup、chem-struct、mml:math的元素较多,在元数据结构图中,以图4的source-title下的这四个元素的结构为例进行说明。其它处包含这四个元素方式与此一致,不再一一列举说明。特殊字符处理方法见附录B。

    6.2.2 单篇文献元素集结构

    其中,article-meta条件必备。如果与article-meta处于同一层级的source-meta没有出现,则article-meta必须出现,且出现频次为1,否则article-meta出现频次可为0。

    6.2.3 主题/分类/关键词元素集结构

    主题/分类/关键词元素集主要描述文献的主题、分类、关键词信息。subj-group包含了主题词、主题词表信息;class-group包含了分类号、分类法信息;kwd-group包含了关键词、关键词类型信息。

    6.2.4 贡献者/机构元素集结构

    贡献者/机构元素集描述了贡献者、机构、地址信息。contrib包含了贡献者的姓名、职称职务、个人简介、研究领域等信息;institution-warp包含了机构标识符、机构名称等信息;address包含了国家、省、市、邮编等信息。

    6.2.5 会议元素集结构

    其中,contrib、institution-warp、address所包含的属性及元素与上文贡献者/机构元素集中的这些元素所包含的属性及元素描述一致。

    6.2.6 基金元素集结构

    其中,contrib、institution-warp、address所包含的属性及元素与上文贡献者/机构元素集中的这些元素所包含的属性及元素描述一致。

    6.2.7 操作信息元素集结构

    6.2.8 获取管理元素集结构

    6.2.9 全文文件元素集结构

    6.2.10 图元素集结构

    6.2.11 表元素集结构

    6.2.12 附加资料元素集结构

    6.2.13 参考文献元素集结构

    ref所包含的元素为条件必备元素,同层级元素互为条件。

    6.2.14 引用关系

    引用关系单独存在,描述文献(包括单篇文献、来源、参考文献)被其它文献引用的情况。以为根节点,包括文献唯一标识符、施引文献数量即文献被引次数及施引文献唯一标识符信息。

    文献唯一标识符可能是单篇文献唯一标识符、来源唯一标识符或参考文献唯一标识符,文献被引次数通过中的属性count描述,施引文献唯一标识符也可能是单篇文献唯一标识符、来源唯一标识符或参考文献唯一标识符。文献中的可能是文献数据库中不存在原始文献的参考文献唯一标识符,也可能是没有归一成功的参考文献唯一标识符。

    6.2.15 归一关系

    归一关系单独存在,描述同一篇文献的不同表达形式信息。归一关系包括参考文献与原始文献的归一,也包括参考文献与参考文献的归一。以为根节点,包括文献唯一标识符、其它形式参考文献数量及标识符信息。

    文献唯一标识符可能是单篇文献唯一标识符、来源唯一标识符或参考文献唯一标识符,归一数量通过中的属性count描述,参考文献标识符为。文献中的可能是文献数据库中不存在原始文献的参考文献唯一标识符,也可能是没有归一成功的参考文献唯一标识符。

    6.2.16 规范关系

    规范关系单独存在,描述同一数据对象(包括贡献者、机构、基金项目、会议和来源)的不同表达形式信息。规范关系以为根节点,包括规范数据对象的唯一标识符、其它形式数据对象的数量及标识符信息。

    规范数据对象唯一标识符通过唯一标识符类型取值为“nstl_spec”表示,例如通过institution-id-type=“nstl_spec”表示所对应的为规范机构唯一标识符。归一数量通过中的属性count描述,其它形式数据对象一一对应于规范数据对象类型,如规范数据对象唯一标识符为,则其它形式对象标识符也只能是。

    6.2.17 沿革关系

    沿革关系单独存在,描述来源与来源之间的沿革变化关系,主要包括继承、部分继承、替代、部分替代、吸收、部分吸收等关系。以relation为根节点,包括来源唯一标识符、沿革关系类型、其它来源唯一标识符。

    来源唯一标识符以及与来源具有沿革关系的其它来源唯一标识符通过source-id表示,沿革关系类型通过relation-type中的relation-type属性表示,具体取值见属性relation-type的定义。

  • 7 描述性元素

    描述性元素用于描述来源、单篇文献、主题/分类/关键词、贡献者/机构、会议、基金、操作信息、获取管理、全文文件、图、表、附加资料和参考文献相关信息,是实际记录内容的元素。

    7.1 描述性元素集简表

    7.1.1 来源元素集简表

    来源元素集描述文献的来源信息,例如文献所在的出版物信息、卷期信息、出版商信息、出版日期等。文献来源类型包括期刊、会议录、科技丛书、科技专著、文集汇编、工具书、开放课程等。

    7.1.2 单篇文献元素集简表

    单篇文献元素集描述单篇文献的题名、摘要、关键词、页码、计数等信息。

    7.1.3 主题/分类/关键词元素集简表

    主题/分类/关键词元素集描述来源或单篇文献的主题、分类、关键词信息。

    7.1.4 贡献者/机构元素集简表

    贡献者/机构元素集描述贡献者、机构和地址信息,其中地址既可以是贡献者地址,也可以是机构地址。

    7.1.5 会议元素集简表

    会议元素集描述与文献有关的会议信息,如会议名称、会议地点、会议举办者、会议日期等。

    7.1.6 基金元素集简表

    基金元素集描述文献资助信息,如基金项目名称、资助日期、资助者、资助金额等。

    7.1.7 操作信息元素集简表

    操作信息元素集描述相关人员对文献的操作处理信息,如操作人员、加工方式、数据状态等。

    7.1.8 获取管理元素集简表

    获取管理元素集描述文献的可获取方式(包括馆藏、数据库、可链接地址等)和版权信息。

    7.1.9 全文文件元素集简表

    全文文件元素集描述文献全文文件的格式、大小、相关描述信息等。

    7.1.10 图元素集简表

    图元素集描述图的题名、文字描述信息及相关链接等。

    7.1.11 表元素集简表

    表元素集描述表名、文字描述信息及相关链接等。

    7.1.12 附加资料元素集简表

    附加资料元素集描述附加资料的格式类型、文字描述信息及相关链接等。

    7.1.13 参考文献元素集简表

    参考文献元素集描述文献中的参考文献信息,如参考文献题名、作者、来源、卷期、出版者等信息。

    7.2 描述性元素定义

    描述性元素共计97个,详细定义见描述性元素定义

  • 8 辅助性元素

    辅助性元素对描述性元素进行封装。一方面便于计算机对数据进行形式化的描述,另一方面便于计算机对数据进行逻辑上的理解和处理。

    辅助性元素共计53个,详细定义见辅助性元素定义

  • 10 形式化描述

    10.1 元数据Schema

    元数据Schema请见http://spec.nstl.gov.cn/namespace/nstl-metadata-schema

    10.2 元数据DTD

    元数据DTD请见http://spec.nstl.gov.cn/namespace/nstl-metadata-dtd。

  • 附录A NSTL统一文献元数据数据唯一标识符规则

    A.1适用范围

    (1)NSTL数字业务流程中各个系统产生的数据都应采用该规则生成数据唯一标识符。

    (2)统一文献元数据标准定义的来源(含期刊品种)、单篇文献、贡献者、机构、基金、会议、参考文献、全文文件、图、表、附加资料等元素集要求赋予数据唯一标识符。

    (3)NSTL各业务系统如有特定的数据编号需求,可参照该规则生成内部数据编号。内部数据编号不参与数据流转和交换,只在系统内部使用。

    A.2 基本要求

    (1)数据唯一标识符在NSTL数字业务流程中长期有效并保持唯一性,系统更换、更新或数据迁移时应保留数据唯一标识符。

    (2)NSTL数字业务流程中的后续系统应保留和继承前端系统生成的数据唯一标识符。例如联合编码系统生成了来源数据唯一标识符,则后续的数据加工系统和仓储系统要继承使用。

    A.3数据唯一标识符生成规则

    数据唯一标识符由32位字符组成,具体构成如下:

    [系统标识]+[元素集标识]+[时间戳]+[序列号]+ [校验码]

    (1)系统标识由2位字符组成,主要用来标识产生数据的系统,见表1;

    (2)元素集标识由3位字符组成,见表2;

    (3)时间戳由17位字符组成,记录数据创建的时间。时间戳精确到毫秒,格式为yyyyMMddHHmmssSSS;

    (4)序列号由9位字符组成,取值为数字或者字母,由系统随机生成;

    (5)校验码是唯一标识符的最后一位,取值为数字或者字母,由前面31位字符通过运算得出。校验码的采用标准为GB/T 17710-2008信息技术 安全技术 校验字符系统。

    数据唯一标识符的例子如下:

    例1:NSTL联合编目系统于2015年8月12日产生的1条图书数据,这条数据的唯一标识符为:A3SRC20150812101530123448118256Y

    例2:NSTL联合数据加工系统于2015年10月8日产生的1条论文数据,这条数据的唯一标识符为:B2ART20151008152310321042383676A

    表1 NSTL现有业务系统的标识

    表2元素集缩写表

    注:如果来源类型为期刊,则来源指的是期刊的期,期刊品种特指期刊的品种信息。赋予唯一标识符时,可选用不同的元素集缩写进行区分。

    A.4数据唯一标识符的可选推荐规则

    如果业务系统已经使用UUID,可以沿用UUID方式生成32位的数据唯一标识符。UUID含义是通用唯一识别码 (Universally Unique Identifier),标准的UUID格式为:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx (8-4-4-4-12),其中每个 x 是 0-9 或 a-f 范围内的一个十六进制的数字。

    例如:6F9619FF-8B86-D011-B42D-00C04FC964FF 即为有效的 UUID 值。

    UUID主要是结合机器的网卡、纳秒级时间戳、芯片ID码和随机数字来生成,通常平台会提供生成UUID的API。UUID是以下几部分的组合:

    (1)当前日期和时间;

    (2)时钟序列;

    (3)全局唯一的IEEE机器识别号,如果有网卡,从网卡MAC地址获得,没有网卡以其他方式获得。

     

  • 附录B 特殊字符处理方法

    在数据元素,例如abbrev-source-title、abstract、addr-line、alt-title、article-title、award-acronym、award-name、bio、chem-struct、classification、collab、conf-acronym、conf-name、conf-num、conf-theme、copyright-hoder、copyright-statement、email、ext-link、full-name、funding-statement、given-names、institution、kwd、license-p、mixed-citation、notes、phone、prefix、role、series、source-subtitle、source-title、string-conf、sub、subject、subtitle、suffix、sup、supplement、surname、td、th、title、trans-abstract、trans-source、trans-subtitle、trans-title、xref中存在上标、下标、数学公式、化学结构,本标准使用sub、sup、chem-struct、mml:math描述这些特殊字符。

    B.1 chem-struct化学结构

    B.2 mml:math 数学公式

    B.3 sub下标

    B.4 sup上标