[論文レビュー] Atomic-SNLI: Fine-Grained Natural Language Inference through Atomic Fact Decomposition
The paper introduces Atomic-SNLI, a dataset for atomic-level NLI built from SNLI, and shows that fine-tuning on atomic facts improves atomic reasoning while maintaining strong sentence-level NLI performance.
Current Natural Language Inference (NLI) systems primarily operate at the sentence level, providing black-box decisions that lack explanatory power. While atomic-level NLI offers a promising alternative by decomposing hypotheses into individual facts, we demonstrate that the conventional assumption that a hypothesis is entailed only when all its atomic facts are entailed fails in practice due to models' poor performance on fine-grained reasoning. Our analysis reveals that existing models perform substantially worse on atomic level inference compared to sentence level tasks. To address this limitation, we introduce Atomic-SNLI, a novel dataset constructed by decomposing SNLI and enriching it with carefully curated atomic level examples through linguistically informed generation strategies. Experimental results demonstrate that models fine-tuned on Atomic-SNLI achieve significant improvements in atomic reasoning capabilities while maintaining strong sentence level performance, enabling both accurate judgements and transparent, explainable results at the fact level.
研究の動機と目的
- NLIにおける解釈性を促進するため、文レベルの推論から原子レベルの推論へ移行する。
- 現在のモデルの原子レベル推論が文レベル推論に遅れをとっているかを調査する。
- SNLIを分解し高品質な原子例を生成することで、大規模な原子レベルのNLIデータセットを作成する。
- Atomic-SNLIでの訓練が原子推論を改善し、文レベルNLIへ転移することを示す。
提案手法
- 各仮説をDecModelを用いて原子事実の集合に分解する。
- 原子レベルでの含意、矛盾、中立の組成的推論ルールを定義する。
- SNLI前提を保持しつつ、原子事実に含意・中立・矛盾をラベル付けしてAtomic-SNLIを構築する。
- 前処理済みNLIモデルを文レベルおよび原子レベルのタスクで評価し、SNLI-trainedモデルとAtomic-SNLI-trainedモデルを比較する。
- 原子予測の確率和を用いて最終的な文レベル判断へ集約する。
- 分解された事実を通じて原子レベルの説明可能性を提供する。
実験結果
リサーチクエスチョン
- RQ1原子レベルの例でのファインチューニングは、NLIモデルの細粒度原子推論を改善するか。
- RQ2原子レベルの訓練は標準的な文レベルNLIの性能へ転移または改善をもたらすか。
主な発見
| Category | Metric | 1 Fact | 2 Facts | 3 Facts | 4 Facts | 5 Facts |
|---|---|---|---|---|---|---|
| Entailment | Accuracy | 91.23 | 80.59 | 82.55 | 52.00 | 100.00 |
| Entailment | Precision | 92.39 | 86.91 | 72.22 | 60.00 | 100.00 |
| Entailment | Recall | 90.58 | 64.59 | 44.83 | 25.00 | 100.00 |
| Entailment | F1 | 91.48 | 74.11 | 55.32 | 35.29 | 100.00 |
| Neutral | Accuracy | 91.23 | 80.59 | 82.55 | 52.00 | 100.00 |
| Neutral | Precision | 87.03 | 73.19 | 82.76 | 50.00 | 0.00 |
| Neutral | Recall | 88.07 | 88.80 | 94.74 | 90.00 | 0.00 |
| Neutral | F1 | 87.55 | 80.24 | 88.34 | 64.29 | 0.00 |
| Contradiction | Accuracy | 91.23 | 80.59 | 82.55 | 52.00 | 100.00 |
| Contradiction | Precision | 94.00 | 89.79 | 86.36 | 50.00 | 100.00 |
| Contradiction | Recall | 94.86 | 84.74 | 86.36 | 33.33 | 100.00 |
| Contradiction | F1 | 94.43 | 87.19 | 86.36 | 40.00 | 100.00 |
- 原子レベルの正解率は、モデル間で文レベルの正解率より低いか、同等である。
- Atomic-SNLIでのファインチューニングは、複数事実仮説(2事実および3事実)での改善をもたらす。
- DeBERTa-v3-xsmallは最大のゲインを示し、例として3事実ケースで精度が最大で+10.07%、F1が+8.16%となる。
- 原子予測の確率和による集約は、含意・中立・矛盾の各クラス間で適切な精度と再現を実現する。
- 結果は、原子レベルの訓練が細粒度推論を高めつつ文レベルの性能を保持することを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。