[論文レビュー] Large Language Model for OWL Proofs
この論文は OWLオントロジーに対する証明能力を大規模言語モデルで評価し、Extraction、Simplification、Explanationのタスクに焦点を当て、複雑さ、言語形式、ノイズ、前提条件の不完全さが性能に与える影響を分析します。
The ability of Large Language Models (LLMs) to perform reasoning tasks such as deduction has been widely investigated in recent years. Yet, their capacity to generate proofs-faithful, human-readable explanations of why conclusions follow-remains largely under explored. In this work, we study proof generation in the context of OWL ontologies, which are widely adopted for representing and reasoning over complex knowledge, by developing an automated dataset construction and evaluation framework. Our evaluation encompassing three sequential tasks for complete proving: Extraction, Simplification, and Explanation, as well as an additional task of assessing Logic Completeness of the premise. Through extensive experiments on widely used reasoning LLMs, we achieve important findings including: (1) Some models achieve overall strong results but remain limited on complex cases; (2) Logical complexity, rather than representation format (formal logic language versus natural language), is the dominant factor shaping LLM performance; and (3) Noise and incompleteness in input data substantially diminish LLMs' performance. Together, these results underscore both the promise of LLMs for explanation with rigorous logics and the gap of supporting resilient reasoning under complex or imperfect conditions. Code and data are available at https://github.com/HuiYang1997/LLMOwlR.
研究の動機と目的
- OWLオントロジーの証明構築の動機づけと研究、LLMsが忠実で人間に読みやすい説明を生成する方法を含む。
- 3つの進行的に難易度が上がるタスク(Extraction、Simplification、Explanation)と、欠陥前提下での論理的完全性評価を定義する。
- EL Description Logic断片のOWLオントロジー用自動データセット構築と評価フレームワークを提案する。
- 実際のオントロジーを横断して複数の推論対応LLMsを経験的に比較し、成功要因と失敗モードを特定する。
提案手法
- 最小の正当証拠を結論の金証拠として使用してELオントロジーの自動データセットを構築する。
- 対象の包含を導くのに必要な最小公理集合(正当証拠)を抽出する。
- 導出に寄与する本質的要素へと抽出された公理を単純化する。
- 前提から結論がどのように導くかを説明する一貫したAXIOMS_USED、SIMPLIFY、DERIVE形式を用いて説得力のある説明を生成する。
- プロンプトベースの手法と複数のLLMを用いて、形式言語対自然言語、完全な前提対不完全な前提といった変動下で評価する。

実験結果
リサーチクエスチョン
- RQ1LLMsはELオントロジーのOWL含意に対して完全かつ最小の正当証拠を構築できるか。
- RQ2形式的論理表現と自然言語表現はLLMの証明生成にどのような影響を与えるか。
- RQ3ノイズや不完全な前提がLLMsのOWL証明の抽出・単純化・説明能力に与える影響はどの程度か。
- RQ4モデルサイズ、プロンプト、推論規則といった要因のうち、OWL証明の性能に最も影響するものはどれか。
主な発見
- いくつかのモデルは全体的に高い成果を上げるものの、単純な推移的パターンを超える複雑な導出には苦戦する。
- タスクの論理的複雑さが、表現形式よりも性能を決定づける主な要因である。
- ノイズと不完全な前提は推論精度を著しく低下させる可能性がある(欠落前提で約38%の低下程度)。
- 推論規則は一部のモデル(例:Qwen3-32B)の性能を大幅に向上させるが、他のモデル(例:GPT-o4-mini)には混合効果となる。
- GPT-o4-miniはしばしば最良の単純化と全体的な導出精度を示し、導出あたり平均7–8ステップとなる。
- オントロジーごとに性能が異なり、SNOMED CTはGO-PlusやFoodonより一般的に難しい。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。