编制原则和方法

来自NSTL-Specification
跳转至: 导航搜索

功能需求说明

  本规范主要用于NSTL馆藏文献资源,包括期刊论文、会议论文、学位论文、文集汇编和科技报告的数据描述和管理。期刊论文、会议论文及文集汇编都是结集出版的文献,学位论文和科技报告则通常是单篇成册出版。
本规范从功能上可支持:
  文献选择,包括:① 按类型选择文献 ② 根据文献主题和内容选择文献③ 根据文献引用频次选择文献;
  文献识别,包括:① 根据文献特征识别 ② 识别文献作者及其所在机构③ 通过全球通用的DOI识别文献 ④ 通过NSTL本地通用的Local DOI 识别文献⑤ 识别所描述对象是否有纸本全文;
  文献获取,包括:①检索文献主题和文摘 ② 支持多语种的文献检索 ③支持OpenURL链接服务器对检索结果的调用,帮助实现原文获取 ④ 支持在NSTL成员馆范围内的全文获取 ⑤ 引文检索;
  加工管理,包括:①实现按文献品种分配加工任务,避免重复加工 ②按本/册管理加工进度 ③根据加工深度要求(加工题录、文摘或是引文),安排加工任务 ④支持OAI协议对数据的收割。

规范制定原则

模块化原则

  模块化被视为现代元数据最重要的特征。模块化的关键是根据实际使用的需要,将资源对象区分为若干个实体,对资源的描述,即是对多个不同实体的组合和描述。
  2007年DC年会上提出的“新加坡框架”以新的方式阐述了元数据模块化设计思路。根据新加坡框架的定义,一个DC元数据应用纲要至少要包括功能需求、领域模型和描述集合纲要这几部分。功能需求定义了应用纲要所需要支持完成的设计功能,以及其他一些功能需求;领域模型主要定义应用纲要所描述的基本实体概念以及它们之间主要的相互关系。领域模型既可以用文本描述,也可以采用象UML这样更为规范的描述方法;描述集合纲要是一个信息模型,定义了描述集合的结构限定,描述集合纲要以计算机可读的XML格式书写,定义了一组元数据记录,它是应用纲要可遵循的实例。
  “领域模型”强调了基本实体及其关系,实体的描述是通过一组属性描述组成的。属性对应的是元素,它是资源描述的最小单元。元素集描述了实体对象所有的属性特征,元素集也可定义为描述资源各个方面的属性词表。
  描述集是元素集的组合,描述集用来完整描述某一类资源的全部属性和特征。通常,元素集描述某一类实体特征,描述集则体现的是多个实体及其关系。因而描述集实现了用模块化方式对资源的信息描述构建。下图展示了描述集和元素集之间的关系。
Tt.jpg
  一个元素集只能描述一类对象,一个描述集中可以包容不同的元素集。因此,一个描述集可以包含若干个异类对象。元素集具有稳定性,描述集则具有变化性,可以根据资源的变化对元素集重新组合。在一个描述集中,元素集可重复。基于这样的思想,可以对一个复杂对象按类进行分解描述。本规范的设计贯彻了元数据的模块化设计理念,按元素集的重组的方式构建规范。

可扩展原则

  DC在元素之下设计“元素修饰词”和“编码体系修饰词”,在语义上对元素含义保留继承性,并因此方便地实现了元数据的纵向扩展。元素修饰词对元素的语义进行修饰,可以提高元素的专指性和精确性,编码体系修饰词是对元素取值形式的限定,其形式包括受控词表、规范表或者解析规则等。这充分展示了人们对客观实体的理解。
  本规范未采用DC的纵向扩展理念,在语义网发展尚不成熟的今天,计算机处理元素、元素修饰词及编码体系修饰词这些概念时,采取的方式是等同的。因此,本规范的可扩展性主要体现在元素集的灵活组合及元素集中元素的横向扩展,即可针对某类实体增加个性化元素。
  对元素集的灵活组合可形成新的描述集,目前本规范只有期刊论文涉及到对参考文献的加工,因此期刊论文描述元数据规范中包含“引文”元数据模块,如果其它资源在未来需要增加参考文献加工,则只需将引文元素集加入到该描述集中即可实现。这种可扩展方式,不会打乱已有的结构,从而实现描述集的扩展。

统一化原则

  在设计元素时,归纳不同类型文献资源的共性信息,将文献资源细分成不同的对象,如管理信息、馆藏信息、描述信息抽取出来作为一个单独的对象描述。
  管理信息统一化,是指在NSTL加工环境中,无论是何种类型资源,统一采取一致的名称和标签说明记录创建时间、记录最新修改时间、加工深度标识等信息。
  馆藏信息统一化,是指在NSTL加工环境中,为成员单位设置代码,进行规范化管理,然后通过馆藏单位(馆藏机构代码)、馆藏号和登到时间(入藏日期)等揭示馆藏信息。
  资源描述信息统一化,是指在描述资源对象时,尽可能求同存异,只要内在的本质特征相同,即可通过相同的元素进行描述。例如期刊论文、会议论文、文集汇编的单篇文献对应有母体文献信息(来源文献信息),这些母体文献虽细分为期刊、会议录、图书进行描述,但是对于其中的共性信息,采取统一的名称。如以host_title指代期刊、会议录和图书的名称。

需求原则

  资源描述时从功能需求出发,考虑哪些属性特征需要保留,哪些属性特征可以忽略。例如,与论文相关的日期包括论文投稿日期、审稿日期、修回日期,接收日期、发布日期/出版日期等,这些日期是否都有必要著录则要结合具体的应用考虑。一般情况,论文的发布日期/出版日期对用户是有价值的。
  面向内部管理,定义一系列管理元数据,如“数据加工单位”、“记录加工深度”等元素的设置,体现了NSTL对实际加工事务的管理需求。
  数据管理中需要清晰地描述期刊品种及单册卷期的信息,元数据设计三组元素集合描述期刊、卷期及论文三个不同的描述对象,从而适应NSTL成员单位合作加工模式,有效避免重复加工,提高管理效率。
  元数据设计面向外部检索服务,从用户的角度出发,考虑哪些信息是有价值的。如在论文元素集中专门定义了“文献号”(paper_no)元素,“文献号”本身并没有普适性,个别出版商在出版过程中增加了该号码,并由此引导了该类期刊用户使用该号索取文献,正是考虑到用户偏好,在规范中增加了专门元素进行描述。
  DC将馆藏也是简化为特定属性进行描述。对馆藏的描述是由DC Library社团增加了Location一词,用以定义馆藏机构。但是NSTL馆藏信息通常还包括排架号等信息,需要在DC的基础上进一步扩展。
  在考虑“引文”的描述时,不能简单地通过DC的relationship元素及其元素修饰词reference实现。如果仅仅是为了呈现某一篇论文所有参考文献时,该方式描述足矣。但是,如果需要通过揭示论文被引及引用的复杂关系,向用户展示科研发展的脉络,则需要将“引文”作为一种单独的“对象”进行描述。

互操作原则

  互操作性体现在开放性、易转换性等方面。开放性主要通过“命名域”的方式注明元数据来源和建立元数据规范登记制度实现。易转换性,体现在整体设计NSTL文献数据加工规范时,在结构上尽可能析出相同或相似的实体,这些实体的描述遵循同一元素集的描述规范,从而在为用户构建服务系统时,能很方便地实现跨不同类型资源的检索。

资源描述框架

元数据结构

  根据元数据设计模块化原则,通常每一类资源的描述对应一个描述集,一个描述集包含有多个元素集,元数据结构既包含元素集,也包含元素集的相关关系。
实体关系图(E-R图)可以用来描述元素集的相关关系,下面以期刊论文为例予以说明,见下图。
U.jpg
      图:期刊论文描述集中各元素集关系

  期刊论文描述集包含有7个元素集,分别是论文元素集、作者元素集、卷期元素集、期刊元素集、馆藏元素集、引文元素集和管理元素集,它们之间的关系可以概括如下:
  一篇期刊论文由一个或多个作者创作;一篇期刊论文包含于特定期刊的特定卷期中;特定期刊卷期包含于/属于某一种期刊;特定期刊卷期被一家或多家图书馆收藏;一篇期刊论文包含一条或多条引文数据;管理元素集是管理元素的集合,可应用于其它几个元素集对应的对象。
  分析各类资源的实体关系,确定本规范涉及到的5类资源描述集的元素集构成。
Uu.jpg
  论文元素集、作者元素集、馆藏元素集和管理元素集是上述资源较为通用的元素集,对于期刊论文、会议论文和文集汇编由于其加工对象是析出文献,为说明析出文献所在位置还需要对母体文献作一些描述,因此它们还共同拥有母体文献元素集。在NSTL资源加工中,部分期刊的加工深度到参考文献,因此引文元素集成为期刊论文描述集的一部分。各类资源对象所包含的元素集及它们之间的关系,可参考期刊论文描述集的实体关系图推导得出,在此不再赘述。

元素定义方法

  遵循ISO/IEC 11179标准定义元素,根据实际使用情况,按以下7个方面进行概略定义:
  1)标签:通过适合人们阅读的词汇描述元素,本规范的标签一律使用中文形式。
  2)名称:为方便计算机处理而定义的元素标记,通常名称使用英文。
  3)定义:是对该元素含义的解释性说明文字。
  4)必备性:是指该元素在元素集的必备性。必备性有2个取值,分别是必备、可选。
  5)可重复性:是指该元素在元素集中是否可重复。可重复性有2个取值,分别是可重复和不可重复。
  6)注释:是对元素著录要求的说明。
  7)示例:在示例部分中展示相应的著录实例。
  在上述定义中,1-3是元素定义的核心,4-7与NSTL具体的应用密切相关,方便用户在数据著录时遵照执行。

形式化描述——XML Schema的应用

  形式化描述是以计算机可读方式描述规范,XML语言提供了形式化描述的方法。XML (eXtensible Markup Languages)语言包含了一组定义语义标记的规则,可以定义特定领域内标记语言的语法结构。Schema规范主要用于描述XML文档中的标记、元素、属性和约束条件等。
  通过“命名域”的方式注明元数据来源,元数据格式在经过这样的描述和封装后,可以方便地被计算机系统读取。本规范统一定义命名域为http://spec.nstl.gov.cn/specification/namespace ,并将各类资源的Schema命名如下:
  期刊论文:NSTL_journalarticle.xsd
  会议论文:NSTL_proceeding.xsd
  学位论文:NSTL_degreearticle.xsd
  文集汇编:NSTL_collection.xsd
  科技报告:NSTL_sciencereport.xsd
  本规范定义的系列XML Schema除了将规范本身用计算机可读的XML语言进行描述以外,进一步定义了元素的数据类型及长度约束,这些取值充分体现了规范在NSTL机构的具体应用。为方便用户操作使用,本规范还提供了每类资源的Schema样例文件。