-
1 概述
学术论文知识对象是对学术论文知识挖掘与深度利用的基础,可以有效支撑学术论文内容数据化、语义出版以及语义检索、知识推理等各类知识服务。
-
2 知识对象元数据描述
知识对象是具备完备知识表达的内容,是学术论文中具有特定意义且能够独立使用的最小知识单元。知识对象包括句子级知识对象和短语级知识对象,句子级知识对象主要包括学术论文中的研究背景句、研究目的句、研究方法句、研究结果句等功能性语句,短语级知识对象主要包括学术论文中的方法模型、仪器设备、数据资料、软件系统、理论原理、地点等短语。
知识对象元数据包括唯一标识ID、类型、内容、位置信息等要素。知识对象元数据描述规范主要依据NLM JATS(Journal Article Tag Suite)和国家重点研发计划“科技文献内容深度挖掘及智能分析关键技术和软件”的研究成果《学术论文知识对象语义标注》标准。
知识对象元素及属性的结构图如下所示。
-
3 元素及属性定义
3.1知识对象元素描述
详细描述本标准在JATS基础上扩展的所有元素,包括custom-meta-group、custom-meta、meta-id、meta-name、meta-value、meta-start、meta-end。其中,custom-meta-group、custom-meta、meta-name、meta-value复用JATS标准。每个元素包括元素名称、中文名称、属性、备注、父元素及示例。
表1 custom-meta-group元素描述
中文名称
知识对象语义单元组
名称
custom-meta-group
属性
rid:段落id
备注
包含多个知识对象语义单元
父元素
<article-meta>
示例
<custom-meta-group>
<custom-meta specific-use="general object">
<meta-id>835f1e34fbfb412db75f3e0074fca58ap29[181:218]</meta-id>
<meta-name>theory</meta-name>
<meta-value>molecular interlayer water desorption</meta-value>
<meta-start>181</meta-start>
<meta-end>218</meta-end>
</custom-meta>
</custom-meta-group>
表2 custom-meta元素描述
中文名称
知识对象语义单元
名称
custom-meta
属性
specific-use:标注知识对象的内容类型
content-type:标注知识对象的内容级别
备注
标注的知识对象语义单元,包括知识对象唯一标识符、类型、内容、起始位置及结束位置等内容。
父元素
<custom-meta-group>
示例
<custom-meta specific-use="general object" content-type="phrase">
<meta-id>835f1e34fbfb412db75f3e0074fca58ap29[181:218]</meta-id>
<meta-name>theory</meta-name>
<meta-value>molecular interlayer water desorption</meta-value>
<meta-start>181</meta-start>
<meta-end>218</meta-end>
</custom-meta>
表3 meta-id元素描述
中文名称
知识对象唯一标识符
名称
meta-id
属性
无
备注
知识对象的唯一标识符id,由文本、数字或特殊字符组成。meta-id建议采用article-id+rid+起始位置+结束位置构成。article-id用于表示文章的唯一编号。rid是标注知识对象所在段落位置标识符。
父元素
<custom-meta>
示例
<meta-id>835f1e34fbfb412db75f3e0074fca58ap29[181:218]</meta-id>
表4 meta-name元素描述
中文名称
知识对象类型
名称
meta-name
属性
无
备注
标注知识对象的类型,根据句子级知识对象与短语级知识对象,分别取值域。句子级知识对象值域:background(研究背景句)、objective(研究目的句)、problem(研究问题句)、method(研究方法句)、result(研究结果句)、conclusion(研究结论句)、innovation(创新贡献句)、definition(概念定义句)、quotation(引用句);
短语级知识对象值域:problem(研究问题)、method(方法)、model(模型)、theory(理论原理)、instrumentation(仪器设备)、software(软件系统)、metrics(度量指标)、data materials(数据资料)、scientist(学者)、location(地点)、event(事件名)。
父元素
<custom-meta>
示例
<meta-name>theory</meta-name>
表5 meta-value元素描述
中文名称
知识对象内容
名称
meta-value
属性
无
备注
标注知识对象的具体内容,为自由文本。
父元素
<custom-meta>
示例
<meta-value>molecular interlayer water desorption</meta-value>
表6 meta-start元素描述
中文名称
开始位置
名称
meta-start
属性
无
备注
标注知识对象在学术论文中的起始位置。采用字符计算规则,在文本字符串中,起始位置计算基于从字符串首字符开始的逐一计数原则,其中每个字符(包括字母、中文字符、标点符号以及空格)均被视为独立的计数单位,且空格不可忽略。
父元素
<custom-meta>
示例
<meta-start>181</meta-start>
表7 meta-end元素描述
中文名称
结束位置
名称
meta-end
属性
无
备注
标注知识对象在学术论文中的结束位置,采用字符计算规则,值为标注片段最后一个字符的索引加 1,即采用开区间的方式来表示结束位置。
父元素
<custom-meta>
示例
<meta-end>218</meta-end>
3.2 知识对象属性描述
详细描述本标准在JATS基础上扩展的所有元素的属性,其中content-type、specific-use、rid复用JATS标准。每个属性的内容包括属性中文名称、英文名称、备注、父元素及示例。
表8 @rid属性描述
中文名称
段落id
名称
rid
备注
标注知识对象出现的段落id,在此处直接引用段落id
父元素
<custom-meta-group>
示例
<custom-meta-group rid="p29">
<custom-meta specific-use="general object">
......
</custom-meta>
</custom-meta-group>
表9 @content-type属性描述
中文名称
内容级别
名称
content-type
备注
标注知识对象的内容级别,取值为phrase(短语级)、sentence(句子级)
父元素
<custom-meta>
示例
<custom-meta specific-use="general object" content-type="phrase">
<meta-id>835f1e34fbfb412db75f3e0074fca58ap29[181:218]</meta-id>
......
</custom-meta>
表10 @specific-use属性描述
中文名称
特定用途
名称
specific-use
备注
用于标注知识对象的内容类型,取值为general object(通用知识对象)、domain object(领域知识对象)
父元素
<custom-meta>
示例
<custom-meta specific-use="general object" content-type="phrase">
<meta-id>835f1e34fbfb412db75f3e0074fca58ap29[181:218]</meta-id>
......
</custom-meta>
表11 @sentence-id属性描述
中文名称
句子id
名称
sentence-id
备注
标注知识对象所在句子id,在此处直接引用句子id
父元素
<custom-meta>
示例
<custom-meta specific-use="general object" sentence-id=”1”>
......
</custom-meta>
表12 @domain属性描述
中文名称
知识对象的学科领域
名称
domain
备注
标注知识对象的所属学科领域,如chemistry、physics、agriculture等
父元素
<custom-meta>
示例
<custom-meta specific-use ="domain object" content-type="phrase" domain="physics" >
<meta-name>instrumentation/meta-name>
<meta-value> packed-bed reactor.</meta-value>
</custom-meta>
表13 @score属性描述
中文名称
得分
名称
score
备注
标注知识对象的可能性得分,取值在0到1之间
父元素
<custom-meta>
示例
<custom-meta specific-use ="general object" content-type ="sentence" score="0.8">
<meta-name>problem/meta-name>
<meta-value>........</meta-value>
</custom-meta>
表14 @emotion属性描述
中文名称
引用句的引用情感
名称
emotion
备注
知识对象为引用句时的引用情感,如neutral citation(中立), limited citation(受限),supporting citation(支持)
父元素
<custom-meta>
示例
<custom-meta specific-use="general object" content-type="sentence" emotion="neutral citation" intention="background information">
<meta-name>quotation</meta-name>
<meta-value>A total of 15 million Twitter users are from Saudi Arabia alone [ 22 ].</meta-value>
</custom-meta>
表15 @intention属性描述
中文名称
引用句的引用意图
名称
intention
备注
知识对象为引用句时的引用意图,如background information(背景信息), method(方法),result comparison(结果对比)
父元素
<custom-meta>
示例
<custom-meta specific-use="general object" content-type="sentence" emotion="neutral citation" intention="background information">
<meta-name>quotation</meta-name>
<meta-value>A total of 15 million Twitter users are from Saudi Arabia alone [ 22 ].</meta-value>
</custom-meta>
-
4 知识对象元数据描述规范样例
<!-- 学术论文知识对象 -->
<article xmlns:xlink="http://www.w3.org/1999/xlink">
<!-- 学术论文信息 -->
<article-meta>
<!-- 论文唯一标识符 -->
<article-id pub-id-type="uuid">835f1e34fbfb412db75f3e0074fca58a</article-id>
<article-id pub-id-type="doi">10.1186/s11671-018-2536-z</article-id>
<!-- 论文标题 -->
<title-group>
<article-title>Low-Temperature Reduction of Graphene Oxide: Electrical Conductance and Scanning Kelvin Probe Force Microscopy</article-title>
</title-group>
<abstract>
<!-- 段落文本 -->
<p id="p1">The comparison of electrical resistivity measurements with AFM and SKPFM ones shows that in both cases, two types of processes are observed: the first one is associated mainly with molecular interlayer water desorption, and the second process—with desorption of oxygen epoxy groups together with carbon atoms. These processes in resistivity and AFM and SKPFM measurements are manifested at different annealing temperature. The first process appears in resistivity measurement up to 150 °C, whereas for AFM and SKPFM measurements the process takes place up to 100–110 °C. First of all, such temperature difference is related to different locations of the studied process. The electrical measurements are integral and determined by total thickness of thick (about 40 nm) GO film, whereas the AFM and SKPFM measurements are the surface ones. Additionally, in paper, it was shown that the process of water desorption from inner GO layers is noticeably difficult and will appear at higher temperature in thicker film.</p>
</abstract>
<!-- 学术论文知识对象信息 -->
<custom-meta-group rid="p1">
<!-- 知识对象语义单位 -->
<!-- 研究结果句知识对象语义单位 -->
<custom-meta specific-use="general object" content-type="sentence">
<!-- 知识对象唯一标识符 -->
<meta-id>835f1e34fbfb412db75f3e0074fca58ap29[0:308]</meta-id>
<!-- 知识对象类型 -->
<meta-name>result</meta-name>
<!-- 知识对象内容 -->
<meta-value>The comparison of electrical resistivity measurements with AFM and SKPFM ones shows that in both cases, two types of processes are observed: the first one is associated mainly with molecular interlayer water desorption, and the second process—with desorption of oxygen epoxy groups together with carbon atoms.</meta-value>
<!-- 知识对象起始位置 -->
<meta-start>0</meta-start>
<!-- 知识对象结束位置 -->
<meta-end>308</meta-end>
</custom-meta>
<!-- 理论原理知识对象语义单位 -->
<custom-meta specific-use="general object" content-type="phrase">
<!-- 知识对象唯一标识符 -->
<meta-id>835f1e34fbfb412db75f3e0074fca58ap29[181:218]</meta-id>
<!-- 知识对象类型 -->
<meta-name>theoretical principles</meta-name>
<!-- 知识对象内容 -->
<meta-value>molecular interlayer water desorption</meta-value>
<!-- 知识对象起始位置 -->
<meta-start>181</meta-start>
<!-- 知识对象结束位置 -->
<meta-end>218</meta-end>
</custom-meta>
<!-- 仪器设备知识对象语义单位 -->
<custom-meta specific-use="general object" content-type="phrase">
<!-- 知识对象唯一标识符 -->
<meta-id>835f1e34fbfb412db75f3e0074fca58ap29[400:421]</meta-id>
<!-- 知识对象类型 -->
<meta-name>instrumentation</meta-name>
<!-- 知识对象内容 -->
<meta-value>annealing temperature</meta-value>
<!-- 知识对象起始位置 -->
<meta-start>400</meta-start>
<!-- 知识对象结束位置 -->
<meta-end>421</meta-end>
</custom-meta>
</custom-meta-group>
</article-meta>
</article>
