QUICK REVIEW

[论文解读] Black-box Testing of First-Order Logic Ontologies Using WordNet

Javier Álvez, Paqui Lucio|arXiv (Cornell University)|May 29, 2017

Natural Language Processing Techniques被引用 3

一句话总结

本文提出了一种基于 SUMO 的一阶逻辑（FOL）本体的新型黑盒测试方法，利用 WordNet 及其映射关系自动生成超过 15,000 个能力问题（CQs）。该方法实现了对 FOL 本体翻译、SUMO-WordNet 映射关系以及自动定理证明器（ATP）性能的自动化评估，揭示了现有系统在知识空白和推理能力方面的局限性。

ABSTRACT

Artificial Intelligence aims to provide computer programs with commonsense knowledge to reason about our world. This paper offers a new practical approach towards automated commonsense reasoning with first-order logic (FOL) ontologies. We propose a new black-box testing methodology of FOL SUMO-based ontologies by exploiting WordNet and its mapping into SUMO. Our proposal includes a method for the (semi-)automatic creation of a very large benchmark of competency questions and a procedure for its automated evaluation by using automated theorem provers (ATPs). Applying different quality criteria, our testing proposal enables a successful evaluation of a) the competency of several translations of SUMO into FOL and b) the performance of various automated ATPs. Finally, we also provide a fine-grained and complete analysis of the commonsense reasoning competency of current FOL SUMO-based ontologies.

研究动机与目标

解决一阶逻辑（FOL）本体中常识推理缺乏可扩展、自动化评估方法的问题。
克服为本体验证手动创建能力问题（CQs）的繁琐过程。
评估基于 SUMO 的 FOL 本体的推理能力以及自动定理证明器（ATPs）的性能。
评估 SUMO-WordNet 映射的质量与正确性，及其对自动化推理的影响。
为评估 FOL 本体和 ATP 在常识推理中的表现提供大规模、可重用的基准。

提出的方法

利用 WordNet 的同义词集（synsets）及其语义关系（如结果、上位关系等）生成一阶逻辑（FOL）中的形式化猜想。
通过继承关系，利用现有的 SUMO-WordNet 映射将 WordNet 同义词集映射为 SUMO 概念。
应用一组标准化的问题模板，系统性地从语义关系中推导出成对的 CQs（一个为真，一个为假）。
自动从 WordNet 关系和 SUMO 映射中生成超过 7,500 对 CQs（总计 15,000 个）。
使用自动定理证明器（ATPs）在一致的时间和内存限制下，评估每个 CQ 的可证明性。
分析 ATP 的证明过程，评估公理使用情况、覆盖范围，并识别因知识空白或推理局限性导致的未解决难题。

实验结果

研究问题

RQ1是否可以系统性地利用 WordNet 及其 SUMO 映射，为 FOL 本体生成大规模、自动化的基准能力问题？
RQ2不同 FOL 形式的 SUMO 翻译（如 TPTP-SUMO、Adimen-SUMO）在处理生成的 CQs 时的推理效果如何？
RQ3SUMO-WordNet 映射在多大程度上支持 FOL 本体中的正确常识推理？
RQ4在评估相同 CQs 基准时，不同 ATP 的优势与局限性是什么？
RQ5ATP 中发生的推理失败类型有哪些？这些失败是由于知识缺失还是固有的推理局限性所致？

主要发现

该方法成功生成了 7,500 对 CQs（总计 15,000 个），构成了目前已知最大的基于 SUMO 的 FOL 本体基准。
当知识正确且映射准确时，ATPs 解决了 95% 的问题，表明其具备强大的基线性能。
在 25 个映射正确的未解决问题中，有 22 个是由于本体中缺少公理导致的，凸显了知识空白问题。
有 3 个问题在理论上可解，但在资源限制下无法被 ATP 证明，表明即使知识正确，仍存在推理局限性。
人工评估揭示了映射中的缺陷，特别是针对形容词的处理问题，并识别出 ATP 性能中的假阴性结果。
该基准使得对 ATP 行为的细粒度分析成为可能，各系统在相同约束下均解决了问题的一个独立子集。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。