国家科技图书文献中心

文献元数据设计指南

  • 1 导言

    元数据(Metadata)是关于数据的数据,即根据特定的目的定义描述规则来描述特定类型的资源,是对数据进行组织和管理的基础。随着语义网和大数据的发展,大量的各种来源的资源和数据可被存储和管理,W3C认为元数据在集成和组合来自不同源的数据方面具有重要的作用。元数据可以对任意层次的信息内容元素、信息单元和信息集合以计算机可识别和理解的方式定义、描述、指向、链接、传递和动态组织。数字信息环境下的元数据应能满足根据语义、应用和结构需要对任何信息内容(包括数据、文件、规则、过程、体制)进行定义、标记、描述、识别、验证和解释。满足信息系统对内容的指向、确认、检索和传递,并进行深入的过滤、析取、转换、链接、合并、集成和重组。

    为保证信息系统中数据的一致性和互操作性,各系统建立之初的元数据规划设计需要根据一定的规则来建设,并建立开放的元数据定义、验证、解析机制,保证系统可持续发展。本指南的目的在于从基本理论和流程的角度指导和约束各个系统和各层面在设计元数据时应遵循的方法和流程。适用的使用对象包括系统分析人员、系统开发人员、元数据设计人员、数据管理人员、服务及最终用户等。

    1.1 元数据的描述对象

    元数据的描述对象不仅包括描述信息对象(图书、期刊文献、网络文件、图像等)的数据,也包括信息内容、信息系统、信息过程中各个层次的内容,如分类法、用户使用政策、信息服务模块或界面等。

    1.2 元数据的通用技术性要求

    在数字环境中讨论元数据时,对元数据的设计有下列技术性的要求:(1)开放性定义,即元数据的定义本身是公开可获取的和采用标准方式实现的,可通过标准或通用方法来识别和解析元数据所描述的信息内容。(2)开放性语义确认、验证和解析,即元数据的语义可通过标准或通用方法来识别、验证和解析。(3)可交换、可复用、可继承和可扩展,即可基于开放标准对元数据进行交换,在不同元数据集间进行元素的复用、继承和扩展。(4)计算机可识别和理解,支持计算机对元数据以及用元数据标记的信息内容进行识别和理解[1]。符合上述要求的元数据格式将能方便地应用,理解和交换,成为数字信息环境中的基础设施。

    1.3 元数据技术体系

    为了开放地描述和组织信息内容的各个层次及其相互关系,需要基本的方法和技术体系:(1)技术体系中最基本的内容就是编码,信息内容由ISO10646(UCS)/Unicode来编码,实现底层数据编码的一致性。(2)统一的标识符URI,各类以及各个层次的数据都有统一的唯一标识符。(3)对信息单元的内容、结构、格式等由基于XML的标记技术进行定义、标记、描述和组织。(4)设计的元数据格式在开放登记系统中登记,登记系统通过开放平台提供元数据格式及相应元数据体系的公开查询和调用,因此保障任何系统能够查询到并利用标准方法识别元数据的结构和语义。

    1.4 设计元数据的人员要求

    为了保证元数据设计的有效性和可用性,在设计元数据时具体项目的负责人应全程参与元数据的设计。系统分析人员要能够清晰描述系统需求,并勾画领域模型,为元数据的设计打下良好基础。元数据设计人员要在领域模型的基础上,选择和定义数据元素,对系统元数据进行详细设计。信息技术人员要熟悉资源描述规则和形式化描述语言等。参与元数据设计的相关人员除了对元数据的相关理论方法较为熟悉外,还应能理解互联网的相关概念和理论,数据管理人员应对各元数据的结构和元素的内容及含义进一步细化和解释。

  • 2 元数据应用框架

    数据环境的复杂性使得描述数据的元数据不可能或不应该由单一的元数据规则来描述,各类应用的发展产生了多样化的元数据规范,以满足各类数据描述需要。但是在数字环境下,设计的元数据应能满足数字环境下开放性的要求,本指南借鉴DC元数据应用纲要[2](Framework for Dublin Core Application Profile (DCAP),)的要求来指导和约束各个系统和项目所开展的元数据的设计工作。本指南根据DCAP的流程化思想建立了一个设计元数据的通用技术框架,见图1。旨在确定建立元数据的基本流程和方法,据此设计的元数据满足各个方面和系统应用元数据的需要,是一个通用的元数据规划模型。

    该模型定义了一套流程和方法去制订元数据,基本流程包括:

    (1)功能需求分析,即为什么要设计元数据,这套元数据要达到什么目的,应用的具体需求是什么;

    (2)领域模型构建,即元素集合和相互关系定义;

    (3)设计元数据记录;

    (4)编制使用指南;

    (5)计算机描述语言进行形式化描述。

    图1 元数据应用框架

    本指南更多关注元数据设计的流程和方法,将其作为设计元数据的路线图,据此规划设计符合开放性要求的描述数据和资源的元数据,满足NSTL完整数据业务流程中规范设计元数据的需求。

  • 3 功能需求分析

    3.1 功能需求的必要性

    任何元数据设计的目的都是为了支持某项活动,而为该活动中的应用确定明确的目标是非常关键的第一步。功能需求就是确定应用目标和应用活动范围的重要组成部分。如果应用目标立足点较高或实现较为困难,可参考马斯洛需求层次理论对目标进行分解。明确的功能需求将用来约束元数据应用的边界。

    3.2 如何创建合适的功能需求

    合适的功能需求应该是能满足资源用户和应用开发者的需要,根据这样的需求设计出来的元数据才能够支持系统的应用。功能需求设计至少应回答以下问题:

    1)元数据应用要实现什么功能,应用的边界是什么,哪些功能不能实现?

    即设计元数据时应明确应用的目的和主要功能,同时还要清楚地了解该应用的功能局限,哪些功能不能实现。

    2)应用如何服务用户?

    即该应用如何实现与用户之间的交互,如何满足用户的需求,用户通过怎样的操作才能获得自己想要的结果。

    3)应用有哪些专门的操作?

    明确应用所要求的专门的操作,比如排序、下载特有格式的数据等。只有这样才能够保证元数据充分满足该应用所有的功能需求。

    4)元数据所描述资源的核心特点是什么?

    不同的资源具有不同的特点,这些特点将会影响元数据元素的选择。需要根据所描述资源的核心特点来定义元素,以确保元素的定义全面合理。

    5)系统所服务用户的特点是什么?

    即系统是服务专门用户还是大众用户,这些用户的主要语言是什么,他们有多了解所描述的数据对象。只有充分了解目标用户才能保证元数据设计满足用户的需求。

    6)有没有相关的描述标准?

    即是否存在与自己的应用设计相关的元数据规范,这些规范的设计特点是什么,其中有哪些内容是可以借鉴的。

    3.3 功能需求创建过程及方法

    创建功能需求时推荐参考DCAP发展方法(A method for the Development of Dubl