Skip to main content
QUICK REVIEW

[论文解读] Black-box Testing of First-Order Logic Ontologies Using WordNet

Javier Álvez, Paqui Lucio|arXiv (Cornell University)|May 29, 2017
Natural Language Processing Techniques被引用 3
一句话总结

本文提出了一种基于 SUMO 的一阶逻辑(FOL)本体的新型黑盒测试方法,利用 WordNet 及其映射关系自动生成超过 15,000 个能力问题(CQs)。该方法实现了对 FOL 本体翻译、SUMO-WordNet 映射关系以及自动定理证明器(ATP)性能的自动化评估,揭示了现有系统在知识空白和推理能力方面的局限性。

ABSTRACT

Artificial Intelligence aims to provide computer programs with commonsense knowledge to reason about our world. This paper offers a new practical approach towards automated commonsense reasoning with first-order logic (FOL) ontologies. We propose a new black-box testing methodology of FOL SUMO-based ontologies by exploiting WordNet and its mapping into SUMO. Our proposal includes a method for the (semi-)automatic creation of a very large benchmark of competency questions and a procedure for its automated evaluation by using automated theorem provers (ATPs). Applying different quality criteria, our testing proposal enables a successful evaluation of a) the competency of several translations of SUMO into FOL and b) the performance of various automated ATPs. Finally, we also provide a fine-grained and complete analysis of the commonsense reasoning competency of current FOL SUMO-based ontologies.

研究动机与目标

  • 解决一阶逻辑(FOL)本体中常识推理缺乏可扩展、自动化评估方法的问题。
  • 克服为本体验证手动创建能力问题(CQs)的繁琐过程。
  • 评估基于 SUMO 的 FOL 本体的推理能力以及自动定理证明器(ATPs)的性能。
  • 评估 SUMO-WordNet 映射的质量与正确性,及其对自动化推理的影响。
  • 为评估 FOL 本体和 ATP 在常识推理中的表现提供大规模、可重用的基准。

提出的方法

  • 利用 WordNet 的同义词集(synsets)及其语义关系(如结果、上位关系等)生成一阶逻辑(FOL)中的形式化猜想。
  • 通过继承关系,利用现有的 SUMO-WordNet 映射将 WordNet 同义词集映射为 SUMO 概念。
  • 应用一组标准化的问题模板,系统性地从语义关系中推导出成对的 CQs(一个为真,一个为假)。
  • 自动从 WordNet 关系和 SUMO 映射中生成超过 7,500 对 CQs(总计 15,000 个)。
  • 使用自动定理证明器(ATPs)在一致的时间和内存限制下,评估每个 CQ 的可证明性。
  • 分析 ATP 的证明过程,评估公理使用情况、覆盖范围,并识别因知识空白或推理局限性导致的未解决难题。

实验结果

研究问题

  • RQ1是否可以系统性地利用 WordNet 及其 SUMO 映射,为 FOL 本体生成大规模、自动化的基准能力问题?
  • RQ2不同 FOL 形式的 SUMO 翻译(如 TPTP-SUMO、Adimen-SUMO)在处理生成的 CQs 时的推理效果如何?
  • RQ3SUMO-WordNet 映射在多大程度上支持 FOL 本体中的正确常识推理?
  • RQ4在评估相同 CQs 基准时,不同 ATP 的优势与局限性是什么?
  • RQ5ATP 中发生的推理失败类型有哪些?这些失败是由于知识缺失还是固有的推理局限性所致?

主要发现

  • 该方法成功生成了 7,500 对 CQs(总计 15,000 个),构成了目前已知最大的基于 SUMO 的 FOL 本体基准。
  • 当知识正确且映射准确时,ATPs 解决了 95% 的问题,表明其具备强大的基线性能。
  • 在 25 个映射正确的未解决问题中,有 22 个是由于本体中缺少公理导致的,凸显了知识空白问题。
  • 有 3 个问题在理论上可解,但在资源限制下无法被 ATP 证明,表明即使知识正确,仍存在推理局限性。
  • 人工评估揭示了映射中的缺陷,特别是针对形容词的处理问题,并识别出 ATP 性能中的假阴性结果。
  • 该基准使得对 ATP 行为的细粒度分析成为可能,各系统在相同约束下均解决了问题的一个独立子集。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。