NSTL文献资源加工规范
微信号:NSTL_Specification
顾问:袁海波 沈仲祺
主 编:张建勇
副主编:曾燕
撰写编辑:刘筱敏、孟连生、吕洲、杨增秀、金晨、阳彩军、朱学军、王聚梅、董智鹏、林芳、杨尔欣、周洁、徐海涛、黄利辉、刘苏平、孙虹、赵瑞雪、王星
目录
前言
国家科技图书文献中心(以下简称NSTL)网络服务系统面向全国用户提供全面的科学技术文献数据检索和原文传递服务。NSTL的文献数据库建设主要包括期刊论文、会议论文、学位论文、科技报告、标准、专利等多种文献类型。数据加工规模庞大,每年加工的题录、文摘和引文数据量数以千万条计,并且还在以比较快的速度增长。NSTL文献数据加工工作由9家成员馆共同承担。
NSTL自成立以来,一直十分重视数据加工的标准化和规范化建设,2001年正式发布了《国家科技图书文献中心-文献数据加工细则》,来规范和约束数据加工的格式和内容,以提高数据加工的标准化和规范化水平。2002-2006年NSTL组织协调的《我国数字图书馆标准规范建设项目》,先后完成并推出了与数字图书馆建设相关的一系列标准和研究报告,其中多项标准涉及到NSTL现有建设的多种数据资源。2008年,为进一步提高数据库建设的标准化和规范化水平,NSTL适时启动了文献数据加工细则的修订工作,遵循数字图书馆标准规范项目的相关标准和其他研究成果,以数字图书馆资源组织和现代网络信息服务的角度,重新修改和细化NSTL的数据加工规范。
为此,NSTL专门成立了文献数据加工规范修订小组,修订小组的成员由各成员单位具有丰富数据加工经验的管理人员、元数据研究人员、编目人员、信息技术人员等共同构成。修订小组详细调研了文献数据加工领域的国内外的研究进展,深入研究了DC和相关元数据的研究成果,分析了国内外同类文献信息服务系统,包括Pubmed、Web of Science、Inspec、NTIS、ScienceDirect等的数据格式和相关样例。听取了NSTL成员单位的数据加工人员、服务人员和系统开发人员对数据的要求,围绕数据元素的必要性、全文服务的要求、系统发布的需求等各方面因素,对数据格式和数据元素进行了多次深入的讨论。经过充分的文献调研和集体讨论,确定以我国数字图书馆标准规范项目的相关数据标准为基础,适当扩展服务中需要的数据元素,参考DC元数据的数据组织体系,组织和撰写新的NSTL文献数据库数据加工规范。
按照元数据框架和数字图书馆元数据标准的规定,突出了各类型文献数据元素的特点并尽可能复用,建立了各类型文献的元数据层次结构,让使用者易于理解和执行。比如,根据期刊文献的特点将元数据结构分为母体文献层、馆藏信息层、篇名数据层、参考文献层,每一层次都确定一个数据元素集,每个数据元素都按照ISO11179标准,详细著录其标签、名称、定义、必备性、可重复性、注释、示例等元素项。
最后形成的数据加工规范文档结构为:按文献类型分别组织,首先概述每一种文献类型的内涵和外延,其次说明该类型文献的数据结构和数据关系,再次分别定义该类型文献每一层次数据元素集和数据元素列表。列举完所有文献类型后,最后将所有数据元素按字顺排列详细说明。文献数据加工规范确定的数据交换格式为业界通用的XML格式,各类型文献的XML Schema详见本规范的正文部分。XML Schema主要用于NSTL业务系统之间的数据交换,以及NSTL与外部系统之间的数据交换。
文献数据加工规范的修订工作是NSTL一项基础性的工作,NSTL袁海波主任、沈仲祺副主任确立了修订的原则与目标,NSTL办公室数据库建设部主任孟连生研究馆员参与了规范的修订工作。修订小组由中国科学院国家科学图书馆的张建勇研究馆员和曾燕副研究馆员牵头,中国科学技术信息研究所吕洲、机械工业信息研究院杨增秀、中国农科院农业信息研究所金晨、中国计量科学院文献馆阳彩军,中国科学院国家科学图书馆曾燕、刘筱敏、朱学军、王聚梅等人,分别撰写了文献数据加工规范的各文献类型的元数据描述部分。中国科学院国家科学图书馆曾燕、董智鹏撰写了各类型数据XML Schema和文献数据唯一标识符的生成规则,中国科学院国家科学图书馆博士研究生林芳撰写了特殊符号的转写规则。文献数据加工规范最后由张建勇、曾燕、刘筱敏,朱学军、孟连生审校和统稿。NSTL数据加工工作组全体成员、NSTL网管中心乔晓东、毕军荣、梁冰、郝春云等专家参与了相关讨论,并提出了重要建议。
本数据加工规范主要用于在NSTL文献数据库建设过程中对各类型文献数据加工和管理的指导与规范,支持数据在NSTL数据加工系统、数据仓储系统、数据发布系统之间的传递与管理。现将规范公开出版,希望能够对其他单位或系统数据加工的规范化建设起到一定的参考作用和借鉴价值。也期待能与国内外同仁作更为广泛的交流,得到相关领域专家的批评和指导。
鉴于时间和水平所限,不妥之处在所难免,敬请谅解与指正。
编制原则和方法
功能需求说明
本规范主要用于NSTL馆藏文献资源,包括期刊论文、会议论文、学位论文、文集汇编和科技报告的数据描述和管理。期刊论文、会议论文及文集汇编都是结集出版的文献,学位论文和科技报告则通常是单篇成册出版。
本规范从功能上可支持:
文献选择,包括:① 按类型选择文献 ② 根据文献主题和内容选择文献③ 根据文献引用频次选择文献;
文献识别,包括:① 根据文献特征识别 ② 识别文献作者及其所在机构③ 通过全球通用的DOI识别文献 ④ 通过NSTL本地通用的Local DOI 识别文献⑤ 识别所描述对象是否有纸本全文;
文献获取,包括:①检索文献主题和文摘 ② 支持多语种的文献检索 ③支持OpenURL链接服务器对检索结果的调用,帮助实现原文获取 ④ 支持在NSTL成员馆范围内的全文获取 ⑤ 引文检索;
加工管理,包括:①实现按文献品种分配加工任务,避免重复加工 ②按本/册管理加工进度 ③根据加工深度要求(加工题录、文摘或是引文),安排加工任务 ④支持OAI协议对数据的收割。
规范制定原则
模块化原则
模块化被视为现代元数据最重要的特征。模块化的关键是根据实际使用的需要,将资源对象区分为若干个实体,对资源的描述,即是对多个不同实体的组合和描述。
2007年DC年会上提出的“新加坡框架”以新的方式阐述了元数据模块化设计思路。根据新加坡框架的定义,一个DC元数据应用纲要至少要包括功能需求、领域模型和描述集合纲要这几部分。功能需求定义了应用纲要所需要支持完成的设计功能,以及其他一些功能需求;领域模型主要定义应用纲要所描述的基本实体概念以及它们之间主要的相互关系。领域模型既可以用文本描述,也可以采用象UML这样更为规范的描述方法;描述集合纲要是一个信息模型,定义了描述集合的结构限定,描述集合纲要以计算机可读的XML格式书写,定义了一组元数据记录,它是应用纲要可遵循的实例。
“领域模型”强调了基本实体及其关系,实体的描述是通过一组属性描述组成的。属性对应的是元素,它是资源描述的最小单元。元素集描述了实体对象所有的属性特征,元素集也可定义为描述资源各个方面的属性词表。
描述集是元素集的组合,描述集用来完整描述某一类资源的全部属性和特征。通常,元素集描述某一类实体特征,描述集则体现的是多个实体及其关系。因而描述集实现了用模块化方式对资源的信息描述构建。下图展示了描述集和元素集之间的关系。
一个元素集只能描述一类对象,一个描述集中可以包容不同的元素集。因此,一个描述集可以包含若干个异类对象。元素集具有稳定性,描述集则具有变化性,可以根据资源的变化对元素集重新组合。在一个描述集中,元素集可重复。基于这样的思想,可以对一个复杂对象按类进行分解描述。本规范的设计贯彻了元数据的模块化设计理念,按元素集的重组的方式构建规范。
可扩展原则
DC在元素之下设计“元素修饰词”和“编码体系修饰词”,在语义上对元素含义保留继承性,并因此方便地实现了元数据的纵向扩展。元素修饰词对元素的语义进行修饰,可以提高元素的专指性和精确性,编码体系修饰词是对元素取值形式的限定,其形式包括受控词表、规范表或者解析规则等。这充分展示了人们对客观实体的理解。
本规范未采用DC的纵向扩展理念,在语义网发展尚不成熟的今天,计算机处理元素、元素修饰词及编码体系修饰词这些概念时,采取的方式是等同的。因此,本规范的可扩展性主要体现在元素集的灵活组合及元素集中元素的横向扩展,即可针对某类实体增加个性化元素。
对元素集的灵活组合可形成新的描述集,目前本规范只有期刊论文涉及到对参考文献的加工,因此期刊论文描述元数据规范中包含“引文”元数据模块,如果其它资源在未来需要增加参考文献加工,则只需将引文元素集加入到该描述集中即可实现。这种可扩展方式,不会打乱已有的结构,从而实现描述集的扩展。
统一化原则
在设计元素时,归纳不同类型文献资源的共性信息,将文献资源细分成不同的对象,如管理信息、馆藏信息、描述信息抽取出来作为一个单独的对象描述。
管理信息统一化,是指在NSTL加工环境中,无论是何种类型资源,统一采取一致的名称和标签说明记录创建时间、记录最新修改时间、加工深度标识等信息。
馆藏信息统一化,是指在NSTL加工环境中,为成员单位设置代码,进行规范化管理,然后通过馆藏单位(馆藏机构代码)、馆藏号和登到时间(入藏日期)等揭示馆藏信息。
资源描述信息统一化,是指在描述资源对象时,尽可能求同存异,只要内在的本质特征相同,即可通过相同的元素进行描述。例如期刊论文、会议论文、文集汇编的单篇文献对应有母体文献信息(来源文献信息),这些母体文献虽细分为期刊、会议录、图书进行描述,但是对于其中的共性信息,采取统一的名称。如以host_title指代期刊、会议录和图书的名称。
需求原则
资源描述时从功能需求出发,考虑哪些属性特征需要保留,哪些属性特征可以忽略。例如,与论文相关的日期包括论文投稿日期、审稿日期、修回日期,接收日期、发布日期/出版日期等,这些日期是否都有必要著录则要结合具体的应用考虑。一般情况,论文的发布日期/出版日期对用户是有价值的。
面向内部管理,定义一系列管理元数据,如“数据加工单位”、“记录加工深度”等元素的设置,体现了NSTL对实际加工事务的管理需求。
数据管理中需要清晰地描述期刊品种及单册卷期的信息,元数据设计三组元素集合描述期刊、卷期及论文三个不同的描述对象,从而适应NSTL成员单位合作加工模式,有效避免重复加工,提高管理效率。
元数据设计面向外部检索服务,从用户的角度出发,考虑哪些信息是有价值的。如在论文元素集中专门定义了“文献号”(paper_no)元素,“文献号”本身并没有普适性,个别出版商在出版过程中增加了该号码,并由此引导了该类期刊用户使用该号索取文献,正是考虑到用户偏好,在规范中增加了专门元素进行描述。
DC将馆藏也是简化为特定属性进行描述。对馆藏的描述是由DC Library社团增加了Location一词,用以定义馆藏机构。但是NSTL馆藏信息通常还包括排架号等信息,需要在DC的基础上进一步扩展。
在考虑“引文”的描述时,不能简单地通过DC的relationship元素及其元素修饰词reference实现。如果仅仅是为了呈现某一篇论文所有参考文献时,该方式描述足矣。但是,如果需要通过揭示论文被引及引用的复杂关系,向用户展示科研发展的脉络,则需要将“引文”作为一种单独的“对象”进行描述。
互操作原则
互操作性体现在开放性、易转换性等方面。开放性主要通过“命名域”的方式注明元数据来源和建立元数据规范登记制度实现。易转换性,体现在整体设计NSTL文献数据加工规范时,在结构上尽可能析出相同或相似的实体,这些实体的描述遵循同一元素集的描述规范,从而在为用户构建服务系统时,能很方便地实现跨不同类型资源的检索。
资源描述框架
元数据结构
根据元数据设计模块化原则,通常每一类资源的描述对应一个描述集,一个描述集包含有多个元素集,元数据结构既包含元素集,也包含元素集的相关关系。
实体关系图(E-R图)可以用来描述元素集的相关关系,下面以期刊论文为例予以说明,见下图。
图:期刊论文描述集中各元素集关系
期刊论文描述集包含有7个元素集,分别是论文元素集、作者元素集、卷期元素集、期刊元素集、馆藏元素集、引文元素集和管理元素集,它们之间的关系可以概括如下:
一篇期刊论文由一个或多个作者创作;一篇期刊论文包含于特定期刊的特定卷期中;特定期刊卷期包含于/属于某一种期刊;特定期刊卷期被一家或多家图书馆收藏;一篇期刊论文包含一条或多条引文数据;管理元素集是管理元素的集合,可应用于其它几个元素集对应的对象。
分析各类资源的实体关系,确定本规范涉及到的5类资源描述集的元素集构成。
论文元素集、作者元素集、馆藏元素集和管理元素集是上述资源较为通用的元素集,对于期刊论文、会议论文和文集汇编由于其加工对象是析出文献,为说明析出文献所在位置还需要对母体文献作一些描述,因此它们还共同拥有母体文献元素集。在NSTL资源加工中,部分期刊的加工深度到参考文献,因此引文元素集成为期刊论文描述集的一部分。各类资源对象所包含的元素集及它们之间的关系,可参考期刊论文描述集的实体关系图推导得出,在此不再赘述。
元素定义方法
遵循ISO/IEC 11179标准定义元素,根据实际使用情况,按以下7个方面进行概略定义:
1)标签:通过适合人们阅读的词汇描述元素,本规范的标签一律使用中文形式。
2)名称:为方便计算机处理而定义的元素标记,通常名称使用英文。
3)定义:是对该元素含义的解释性说明文字。
4)必备性:是指该元素在元素集的必备性。必备性有2个取值,分别是必备、可选。
5)可重复性:是指该元素在元素集中是否可重复。可重复性有2个取值,分别是可重复和不可重复。
6)注释:是对元素著录要求的说明。
7)示例:在示例部分中展示相应的著录实例。
在上述定义中,1-3是元素定义的核心,4-7与NSTL具体的应用密切相关,方便用户在数据著录时遵照执行。
形式化描述——XML Schema的应用
形式化描述是以计算机可读方式描述规范,XML语言提供了形式化描述的方法。XML (eXtensible Markup Languages)语言包含了一组定义语义标记的规则,可以定义特定领域内标记语言的语法结构。Schema规范主要用于描述XML文档中的标记、元素、属性和约束条件等。
通过“命名域”的方式注明元数据来源,元数据格式在经过这样的描述和封装后,可以方便地被计算机系统读取。本规范统一定义命名域为http://spec.nstl.gov.cn/specification/namespace ,并将各类资源的Schema命名如下:
期刊论文:NSTL_journalarticle.xsd
会议论文:NSTL_proceeding.xsd
学位论文:NSTL_degreearticle.xsd
文集汇编:NSTL_collection.xsd
科技报告:NSTL_sciencereport.xsd
本规范定义的系列XML Schema除了将规范本身用计算机可读的XML语言进行描述以外,进一步定义了元素的数据类型及长度约束,这些取值充分体现了规范在NSTL机构的具体应用。为方便用户操作使用,本规范还提供了每类资源的Schema样例文件。
术语表
- 1.元素:
元数据中被明确标识的最小信息单元。
- 2.元素集:
用于描述资源的各个属性的词表。根据特定的领域或主题需求以及不同的实施,元素集描述了一个定义完整的元数据元素的集合。除了纯粹的信息等级之外,元素集还定义了每一个元数据元素的语义和语法。
- 3.描述集
描述集是关于一个或多个描述的集合,这些描述是关于一个或多个相关资源的。一个描述集也包含关于自身的描述(管理性元数据)。
- 4.标签:
分配给术语的标签,是关于元素/修饰词的可读的标签,其英文标签在此定义。
- 5.名称:
赋予数据元素的唯一标记。
- 6.定义:
对元素概念和性质的明确说明。
- 7.注释:
关于元素或其应用的注解,用于说明元素可以扩展的修饰词、或者修饰词修饰的元素等情况。
- 8.修饰词:
对元素的语义进行修饰,提高元素的专指性和精确性。
- 9.命名域:
是一种可共享的标记语言,标识所描述的资源。解决术语名称冲突问题,保证元素概念的“唯一性”以及与相关概念的关系。命名域允许文档中的每个元素和特性放在不同的命名域中。
- 10.编码体系:
编码体系是编码体系词表和编码体系语法的通称,有助于说明元素值的含义。这类体系包括控制词表及正式的符号体系或解析规则,用于作修饰词的编码体系的说明必须清晰明确,并能够方便地获得。
- 11.修饰词:
包括控制词表和正规的符号或者解读方式。对元数据元素语义的进一步限定和细化,通常通过vocabulary 和encoding scheme 两种方式,后者称为编码体系修饰词。
修饰词目前具体指元素修饰词和编码体系的通称。
- 12.描述性元数据:
用来描述、发现和鉴别数字化信息对象,如:MARC、DC。它主要描述信息资源的主题、内容和外观特征,对数据单元进行详细、全面的著录描述。数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等。
- 13.管理型元数据:
以管理资源对象为目的的属性元素,通常称为管理型元数据,包括资源对象的显示、注解、使用、长期管理等方面的内容。
- 14.标识符:
在特定的范围内给予资源的一个明确的标识。
- 15.唯一标识符:
唯一识别一个元数据记录的标识。一般是特定应用系统内具有唯一识别性的标识符号。可由标识应用系统的前缀与一字符串组成。也可由系统自动产生或由人工赋予。
各类文献资源加工规范
连接到期刊论文描述元数据规范
连接到会议论文描述元数据规范
连接到学位论文元数据加工规范
连接到文集汇编描述元数据规范
连接到科技报告描述元数据规范
元素定义
连接到元素定义
XML Schema及数据样例
期刊论文:[NSTL_journalarticle.xsd]
会议论文:[NSTL_proceeding.xsd]
学位论文:[NSTL_degreearticle.xsd]
文集汇编:[NSTL_collection.xsd]
科技报告:[NSTL_sciencereport.xsd]
期刊论文数据样例
会议论文数据样例
学位论文数据样例
文集汇编数据样例
科技报告数据样例
附录:
各类文献资源唯一标识符
- 附录1:NSTL各类数据唯一标识符生成规则
类型 | 唯一标识符 | 示例 | 备注 |
---|---|---|---|
期刊论文 | 参照SICI标准 | 0288-0490(2000)40:6<270:RAOWGW>2.0.TX;2-C | 中西日俄文遵循同一标准 |
会议论文 | 参照BICI标准 | 9787800033209(1994)(2IGNAP;595-596)2.2.TX;1-Z | 中西日俄文遵循同一标准 |
文集汇编论文 | 参照BICI标准 | 0824706269(2002)(DOPABI;157-162)2.2.TX;1-N | 中西日俄文遵循同一标准 |
学位论文 | 自定义规则 | WGKJWXBJYJ(2006)YT | 题名首字母+”(“+年+”)“+作者姓名首字母 年用4位yyyy,并用括号括起来 |
科技报告 | 自定义规则 | KJBGHL(2007)11-17 | 题名首字母+”(“+年+”)”+页码 年用4位yyyy,并用括号括起来 |
- 附件1.SICI的生成规则
SICI的生成参照有关标准,为方便理解,特节选要点摘录如下。在SICI中,每一个数据元素之间用标点符号进行分割,从而有助于清晰地识别出不同的数据元素所在位置,下面列出一个完整的SICI结构:
示例SICI:0095-4403(199312/199401)20:2<>1.0.TX;2-U
- 单册部分
1.ISSN
2.出版日期
如果出现多个日期,以封面日期为准。著录在圆括号内。
如果没有提供日期,则用()表示。
表示格式:YYYYMMDD,如果无年、月、日及季节,则仅标识年。
比较特殊的出版日期转换有:
季节(Seasons) 21=Spring; 22=Summer; 23=Fall; 24=Winter.
季度(Quarters) 31=First Quarter; 32=Second Quarter; 33=Third quarter; 34=Fourth quarter.
出版日期混合时,以”/”分割表示。如:
Item:American Libraries June/July 1996 vol. 27:2
SICI:0002-9769(199606/07)27: 6<>1.0.%X;2-1
Item:ASIS Bulletin Dec/Jan 1994 vol.20:2;
SICI:0095-4403(199312/199401)20:2<>1.0.TX;2-U
如果使用了多种纪年表示方法,并包含有格利高利公历表示法(Gregorian scheme),则应使用格利高利公历表示法。如果没有格利高利公历表示法,则使用出现的第一个纪年表示法。
3.卷期表示法
所有的计数都应转换为阿拉伯数字。
如果表示卷、期时使用了字母,则应将字母转换为大写字母(编者按:一般在分辑中使用字母的较多)
忽略在卷期中出现的所有标点符号。
混合编号:用”/”表示。
当同时存在总期次和卷、期次时,使用卷、期次。如果只有总期次,则使用总期次。
单独著录的增刊使用“+“号来表示期次,此时DPI的值为0。
如果索引是作为单独一期出版,用*号来表示该期。
不同层次的卷期表示用”:”隔开,根据卷期的不同情况分别描述为:
只有期,只标期数
有卷和期时,描述为卷:期
有卷、期、部分时,描述为卷:期:部分
有辑、卷、期时,描述为辑:卷:期
- 单篇文献部分:
1.起始页(Location)
页码有可能用数字和字母来表示。
罗马数字不必转换为阿拉伯数字,但是应该用大写来表示。
如果是电子出版的,单篇文献的起始页可能为空,则不必著录。
页码有可能在某一卷中连续著录,如果卷数出现在页码位置,则只著录该页码。
2.题名代码
不用区别题名和子题名。
选择题名前6个单词首字母。
将小写字母转为大写字母。
如果该字符不是SICI题名代码允许的字符,则采用下列办法来决定应用哪些字符:
如果使用的语种不是英文,则将其音译并取音译后的首字母;
用英文单词替代所出现的一些符号;
如果不能明确其是一个外文单词还是符号,将其作为符号看待,并拼写出该符号。
如果在题名里出现了罗马数字,将其按字母对待,而不作为数字看待。
3.本地分配标示符
版权许可中心标识
出版社标识符
- 控制部分:
1.代码结构标识符(Code Structure Identifier,简称CSI):
著录为CSI-1层次用1表示
著录为CSI-2层次用2表示
著录为CSI-3层次用3表示
2.派生部分标示符(Derivative Part Identifier,简称DPI)
0——单册连续出版物或单篇文献
1——某一册连续出版物的目次(Table of contents for a specified serial item or contribution)
2——某一册连续出版物的索引部分(Index from a specified serial item or contribution)
3——某一篇文献的文摘部分(Abstract for a contribution or a serial item)
3.载体/格式标识符 (Medium/Format Identifier,简称MFI)
文献载体类型标识,具体代码见表。
4.标准版本编号 (Standard Version Number)
ANSI/NISO Z39.56-1991为版本1
ANSI/NISO Z39.56-1996为版本2
5.校验码
使用模数37运算法则来计算该校验码。方法和步骤为:
表A:字符转换表
在目前的环境下,建议使用标准的7位ASCII字符集数据来表示SICI代码,以有利于数据交换。
- 附件2. BICI的生成规则
BICI的生成参照有关标准,为方便理解,特节选要点摘录如下。BICI的构成:
单册部分 | 单篇文献部分 | 控制部分 |
---|---|---|
ISBN(年代)序列信息 | (序列编号;题名代码;页码或其它编码) | CSI.CTI.MFI;版本号-校验码 |
示例BICI: 0521416205(1993)(10;EAAWL;234-261)2.2.TX;1-H.
SICI结构说明:
- 单册部分:
1.ISBN
如果在题名页只有一个ISBN号,取该ISBN号。
如果在题名页有多个ISBN号,并且其中一个ISBN号和拥有的版本(一般封面和硬封面)相关,则取手头所有版本的ISBN号。
如果在题名页有多个ISBN,并且和所拥有的版本都相关,则根据本地的习惯选择ISBN号
如果没有其它方法来选择究竟选择哪一个ISBN号,则选择题名页的第一个ISBN号,其次选择封面和书籍封面套纸上ISBN号。
如果在创建BICI码的时候,手头没有相应的书籍,且不知道ISBN号,则选择一个权威的来源(如出版社或图书馆的编目信息)获取ISBN号。
多卷书:
如果多卷书各自有各自的ISBN号,则选择每一卷的ISBN作为其ISBN号,此时,序列信息可以忽略,因为每一卷的ISBN号就可以区分它们了。
如果多卷书使用统一的ISBN号,则需要年份和序列信息去识别每一卷。
2.年份信息
表示格式:YYYYMMDD,如果无年、月、日及季节,则仅标识年。
比较特殊的出版日期转换有:季节(Seasons) 21=Spring; 22=Summer; 23=Fall; 24=Winter季度(Quarters) 31=First Quarter; 32=Second Quarter; 33=Third quarter; 34=Fourth quarter
3.序列信息
主要是区分多卷书中的单册信息,需要将任何文字表达的单册序列信息转换为相应的数字信息,如”Thirty-four”应转换为’34”。
如果序列信息中含有多卷(跨卷)的信息,则需要在起始卷和终止卷中用“-“连接。如,2-3。
- 单篇文献部分
1.序列编号
当CSI的值为2时(在NSTL的使用环境下,CSI的值一般为2),序列编号是指章节号等。如果章节号是罗马数字等其它编码体系,则将其转换成大写的字母。
如:King, Stephen. Book II: On the border The Stand. Garden City, NY; Doubleday, 1978.pp. [267]-622. ISBN: 0-285-12168-7 BICI: 0285121687(1978)(II;OTB;267-622)2.2.TX;1-X
在章节的信息里如果出现层级结构,则需要以“:”分隔不同层级部分。
例如:Johnson, Norman L. and Samuel Kotz. Chapter 4: Poisson Distribution Section 1: Definition and Genesis in Discrete distributions. New York; John Wiley & Sons,1969. ISBN: 0-471-44360-3
BICI: 0471443603(1969)(4:1;DAG;)2.2.TX;1-Y
2.题名代码
题名代码使用大写字母,并遵循以下规则:
选择前6个单词的首字母。
忽略重音、区别音符和连字符。例如:File Design for On-Line Systems 中,On-Line当成一个单词看待。
名称中不包含章节等标签。
不要使用作者等其它信息作为题名,除非作者名字出现在题名中。
非罗马字符以音译方式来转换。
3.页码或其它编码
页码选择起讫页的形式,如果在页面上找不到相应的页码信息,则通过毗邻的页码决定其位置信息。
通常插图或插页没有标识页码信息,在这种情况下,通常在毗邻的页码后增加一个“+”号。如174+
- 控制部分:
1.CTI 类型指图书各个部门的类型代码,具体代码见表。
如果是用于图书中章节或单篇文章的标识,CTI的值为2。如果是用于对目次的标识,CTI的值为1。
2.MFI
文献载体类型标识,具体代码见表。
3.标准版本号
标准版本号为1.
4.校验码
参考SICI校验码算法,此处略。
特殊字符处理方法
- 1.凡通过软键盘可以录入的符号、字母等字符,一律采用软键盘录入
- 2.不可录入的、有变音符号的字母,直接录入其字母
- 3.各种科学符号表示方法
- 4.上下角标的表示:
上角标用 ~ 表示
下角标用 _ 表示
例如:
(6)当出现两级以上的上下标时,通常只对第一级和第二级上下标进行编码转换。此时第一级和第二级上下标视作一个整体按两个以上字符的转换规则进行转换。
- 5.特殊字母的上下标
相关标准规范列表
1.连续出版物及其单篇文献标识符引用标准
名称:Serial Item and Contribution Identifier(SICI)
编号:ANSI/NISO Z39.56-1996(Version 2)
描述:This Standard defines the requirements for providing in coded form an identifier for each item of a serial and each contribution contained in a serial
网络版地址:http://makealink.jstor.org/standard/sicistandard.v2.html
2.数字对象唯一标识符引用标准
名称:Digital Object Unique Identifier(DOI)
编号:ANSI/NISO Z 39.84-2005
描述:The Digital Object Identifier (DOI®) System is for identifying content objects in the digital environment. DOI® names are assigned to any entity for use on digital networks. They are used to provide current information, including where they (or information about them) can be found on the Internet. Information about a digital object may change over time, including where to find it, but its DOI name will not change.
网络版地址:http://www.doi.org/handbook_2000/toc.html
3.元素定义参照标准规范
名称:XML Schema(W3C)
描述:XML Schemas express shared vocabularies and allow machines to carry out rules made by people. They provide a means for defining the structure, content and semantics of XML documents. in more detail. XML Schema was approved as a W3C Recommendation on 2 May 2001 and a second edition incorporating many errata was published on 28 October 2004.
网络版地址:http://dublincore.org/documents/dcmi-terms/
4.元素定义参照规范
名称:DCMI Metadata Terms
描述:This document is an up-to-date, authoritative specification of all metadata terms maintained by the Dublin Core Metadata Initiative. Included are the fifteen terms of the Dublin Core Metadata Element Set, which have also been published as IETF RFC 5013 [RFC5013], ANSI/NISO Standard Z39.85-2007 [NISOZ3985], and ISO Standard 15836-21003 [ISO15836]. RDF Schema versions of the DCMI term declarations are available at [RDFSCHEMAS].
网络版地址:http://dublincore.org/documents/dces/
5.元素定义参照标准与规范
名称:我国数字图书馆标准与规范建设
描述:该项目(CDLS)是科技基础性工作专项资金重点项目。 主要针对数字图书馆系统的数字资源建设与服务,制定我国数字图书馆标准规范发展战略与标准规范框架,制定数字图书馆核心标准规范体系,建立数字图书馆标准规范开放建设与开放应用机制,促进我国数字图书馆的快速、经济和可持续发展。
网络地址:http://cdls.nstl.gov.cn/cdls2/w3c/
6.语种引用标准
名称:语种名称代码第2部分:3字母代码
编号:GB/T 4880.2-2000 (ISO 639-2)
描述:ISO639提供两个语种代码来代表语种名称,一个是2字母代码(ISO639-1),另一个是3字母代码(ISO639-2)。两个语种代码是开放式的,用于术语、辞书编纂、信息和文献以及语言学。我国2000年等效采用ISO639-2:1988,发布了GB/T 4880.2-2000《语种名称代码 第2部分:3字母代码》。
网络版地址:http://www.loc.gov/standards/iso639-2/
7.日期、时间引用标准
名称:日期和时间的表示方法 (Numeric representation of Dates and Time)
编号:ISO 8601
描述:ISO 8601 advises numeric representation of dates and times on an internationally agreed basis. It represents elements from the largest to the smallest element: year-month-day
网络版地址:http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=26780