[論文レビュー] RADAR: Reasoning as Discrimination with Aligned Representations for LLM-based Knowledge Graph Reasoning
RADARは知識グラフ推論を生成的パターンマッチングから識別的な関係推論へと再定義し、整列表現を用いて、分布外(out-of-distribution)一般化を堅牢化し、強力なLLMベースラインに対して性能を向上させる。
Knowledge graph reasoning (KGR) infers missing facts, with recent advances increasingly harnessing the semantic priors and reasoning abilities of Large Language Models (LLMs). However, prevailing generative paradigms are prone to memorizing surface-level co-occurrences rather than learning genuine relational semantics, limiting out-of-distribution generalization. To address this, we propose RADAR, which reformulates KGR from generative pattern matching to discriminative relational reasoning. We recast KGR as discriminative entity selection, where reinforcement learning enforces relative entity separability beyond token-likelihood imitation. Leveraging this separability, inference operates directly in representation space, ensuring consistency with the discriminative optimization and bypassing generation-induced hallucinations. Across four benchmarks, RADAR achieves 5-6% relative gains on link prediction and triple classification over strong LLM baselines, while increasing task-relevant mutual information in intermediate representations by 62.9%, indicating more robust and transferable relational reasoning.
研究の動機と目的
- LLMs による堅牢な知識グラフ推論を促進するため、トークンレベルの生成訓練における共起ショートカットに対処する。
- KGR を制約された候補空間内の識別的なエンティティ選択として再定式化し、関係的妥当性を強調する。
- 離散的なエンティティ分離と整合する2段階の訓練 regime(監督付きファインチューニングに続く強化学習)を開発する。
- 生成による幻覚を回避し、識別的訓練信号と整合する表現空間で推論する。
- 関係推論の堅牢性と移転可能性を支える情報利得と帰納的一般化を定量化する。
提案手法
- 正と負の tail エンティティを組み合わせた候補集合内で識別的なエンティティ選択として KGR を再定式化する。
- 回答のカーディナリティと負サンプルの難易度を変える階層的なタスク難易度を導入する。
- チェーン・オブ・思考の推論痕跡を用いた監督付きファインチューニングと、その後の Group Relative Policy Optimization を用いた強化学習の2段階訓練パイプラインを使用する。
- 中間層表現を抽出し、三つ組の二値妥当性分類子を訓練することで表現空間推論を実装する。
- リンク予測には retrieve-then-rerank アプローチを採用し、軽量な KGE モデルで候補を提案し、学習済み分類子でランク付けする。
- 中間表現におけるタスク関連情報を測定するため、 probing 分類子を用いたタスク適応的相互情報の提案。
実験結果
リサーチクエスチョン
- RQ1RADAR は標準的な KGR ベンチマークとタスクで強力で一貫した性能を達成するか?
- RQ2タスク定式化、訓練目的、推論戦略などの RADAR のコア設計要素は性能と一般化にどのように寄与するか?
- RQ3未知のエンティティへ対する堅牢な帰納的一般化を達成し、ドメイン関連タスクへの関係知識の転移は可能か?
主な発見
- RADAR は4つのベンチマークにおいてリンク予測と三つ組分類の平均相対改善を強力な LLM ベースラインより5–6%達成。
- アブレーションの結果、訓練・最適化・推論を識別的で表現ベースの推論と整合させることが利得の根拠であることを示す。
- RADAR は intermediate representations におけるタスク関連の相互情報を平均で 62.9% 増加させ、より堅牢な関係推論を示す。
- 同じバックボーンを用いた LLM のみの設定でも、KG-LLAMA および FLAME ベースラインに対してリンク予測で平均相対增分 6.1%、三つ組分類で 5.7% の改善。
- RADAR は複数の LLM(LLaMA、Pythia、Qwen)に対してリンク予測でバックボーン非依存の堅牢な改善を示す。
- 未知の三つ組やドメイン適合のゼロショットタスクで顕著な改善を伴い、帰納的条件下でも優れた性能を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。