[论文解读] Towards quantitative measures in applied ontology
本文提出,应用本体论研究必须基于其在真实世界领域任务中的表现进行评估,而非依赖抽象的哲学或形式化标准。它主张在生物医学的本体论任务中应用精确度、召回率、F1值和AUC等定量指标,以实现客观、可复现且可比较的评估,从而为应用本体论的严谨研究方法奠定基础。
Applied ontology is a relatively new field which aims to apply theories and methods from diverse disciplines such as philosophy, cognitive science, linguistics and formal logics to perform or improve domain-specific tasks. To support the development of effective research methodologies for applied ontology, we critically discuss the question how its research results should be evaluated. We propose that results in applied ontology must be evaluated within their domain of application, based on some ontology-based task within the domain, and discuss quantitative measures which would facilitate the objective evaluation and comparison of research results in applied ontology.
研究动机与目标
- 解决应用本体论研究缺乏标准化、客观评估标准的问题。
- 主张本体论研究应基于其在特定领域任务中的表现进行评估,而非基于哲学或形式逻辑标准。
- 推动在本体论评估中采用精确度、召回率和F1值等定量指标,以实现可复现性和可比性。
- 建立以任务为基础、基于实证评估而非主观或定性标准的研究方法论,作为应用本体论的基础。
- 鼓励研究社区就共享的评估标准达成一致,以系统且透明的方式推进该领域发展。
提出的方法
- 基于本体论在特定领域应用中的影响来评估本体论研究,例如文本挖掘、基因功能预测或数据集成。
- 推荐使用信息科学中既有的定量指标,包括精确度、召回率、F1值以及受试者工作特征曲线下面积(AUC)分析。
- 建议通过金标准比较和kappa统计量来评估专家标注与基于本体论结果之间的一致性。
- 鼓励使用用户研究和自动化方法来评估文本定义质量、文档清晰度等标准。
- 通过结合使用来自OBO关系本体的共享关系的本体来测试互操作性,并基于金标准测量推理成功率。
- 主张基于其对任务表现的影响来评估本体设计模式和开发方法论,而非仅基于形式一致性。
实验结果
研究问题
- RQ1在缺乏标准化定量指标的情况下,如何对应用本体论研究进行客观评估?
- RQ2为何基于哲学或形式逻辑标准的评估不足以衡量本体论研究在现实世界中的影响?
- RQ3在生物医学应用中,可使用哪些定量指标来比较不同的基于本体论的方法?
- RQ4如何将本体论中的一致性和正确性与特定领域任务中的可测量性能结果联系起来?
- RQ5社区驱动的标准(如文档、命名规范和协作开发)在实现有效评估中起到什么作用?
主要发现
- 精确度、召回率、F1值和AUC等定量评估指标对于客观比较应用环境中基于本体论的研究方法至关重要。
- 本体论研究的评估必须基于完整系统(本体论加应用)在特定任务上的表现,而非孤立地进行。
- 通过使用金标准和评分者间一致性(如kappa统计量)可实现对基于本体论结果的可靠、实证验证。
- 形式一致性及无矛盾性等标准虽具价值,但应通过其对可测量任务结果的影响来加以证明。
- 通过测试在复用OBO关系本体中关系的本体组合时的推理成功率,可对本体论之间的互操作性进行定量评估。
- 采用定量指标可实现对本体论开发方法论的系统性评估,并支持应用本体论作为一门科学学科的长期发展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。