Skip to main content
QUICK REVIEW

[论文解读] A Semantic Model for Historical Manuscripts

Sahar Aljalbout, Gilles Falquet|arXiv (Cornell University)|Jan 31, 2018
Natural Language Processing Techniques参考文献 6被引用 1
一句话总结

本文提出了一种历史科学手稿的语义模型,通过RDF、SPARQL构造语句和SWRL规则,实现时间推理和术语演变的动态表示。该模型支持对随时间变化的知识(如作者概念和关系)进行半自动索引与推理,通过建模流动关系并从引用和上下文数据中推断写作时间线。

ABSTRACT

Representing and reasoning on contexts is an open problem in the semantic web. Despite the fact that context representation has for a long time been treated locally by semantic web practitioners, a recognized and widely accepted consensus regarding the way of encoding and particularly reasoning on contextual knowledge has not yet been reached by far. In this paper, we present OWL^C : a contextual two-dimensional web ontology language. Using the first dimension, we can reason on contexts-dependent classes, properties, and axioms and using the second dimension, we can reason on knowledge about contexts which we consider formal objects, as proposed by McCarthy [McCarthy, 1987]. We demonstrate the modeling strength and reasoning capabilities of OWL^C with a practical scenario from the digital humanity domain. We chose the Ferdinand de Saussure [Joseph, 2012] use case in virtue of its inherent contextual nature, as well as its notable complexity which allows us to highlight many issues connected with contextual knowledge representation and reasoning.

研究动机与目标

  • 解决在历史科学手稿中解释随时间变化的术语和知识的挑战。
  • 支持学者对手稿进行定年,并重构思想的时序演化过程。
  • 开发一种集成转录文本、本体论和术语的多知识资源模型,并赋予其时间语义。
  • 从文本引用中实现对时间绑定关系(如“在……期间知道”)的语义索引与推理。
  • 创建一个可重用的框架,用于对随时间演化的学术语料库开展数字人文研究。

提出的方法

  • 该模型采用多知识资源架构,整合基于RDF的本体论、术语、转录文本和时间区间。
  • 使用SPARQL CONSTRUCT查询生成空白节点的FluentRelation实例,用于表示随时间变化的属性,如与作者关系相关的“在[t1..t2]期间知道”。
  • 通过递归执行带‘filter not exists’的SPARQL查询实现时间推理,以防止冗余的流动关系生成。
  • SWRL规则用于标准逻辑推理,而自定义SPARQL构造语句则处理非单调、基于流动关系的推理。
  • 应用分布相似性方法评估不同时间段内术语的演变情况。
  • 通过反馈循环确保完整性:重复执行查询直至不再生成新三元组,由于时间区间有限,可保证终止。

实验结果

研究问题

  • RQ1如何对历史手稿中随时间演变的术语进行形式化的时间表示?
  • RQ2哪些技术能够实现对学术手稿中随时间变化的领域知识的半自动语义索引?
  • RQ3如何通过间接引用(如姓名、事件、机构)实现时间推理,以推断手稿的写作时间与顺序?
  • RQ4SPARQL与SWRL在建模动态、时间绑定关系(如“在……期间知道”)中扮演何种角色?
  • RQ5如何通过结合SPARQL与推理工具的混合推理流水线,确保时间知识提取的完整性和正确性?

主要发现

  • 系统成功将数百份转录文本和15个术语资源导入带有时间标注的RDF知识库。
  • SPARQL CONSTRUCT查询为随时间变化的关系生成了有效且无冗余的FluentRelation实例,且由于时间区间的有限性,保证了终止性。
  • 递归推理流水线通过反复应用查询直至不再产生新三元组,实现了完整性。
  • 该模型能够通过间接引用(如书目引用和命名实体)推断出写作顺序和概念演化过程。
  • 该框架通过将术语变化与特定时间段关联,支持对索绪尔思想发展的重建。
  • 该方法展示了利用轻量级、可扩展的语义技术对大规模历史手稿进行语义增强的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。