Skip to main content
QUICK REVIEW

[論文レビュー] When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Xinyu Zhou, Chang Jin|arXiv (Cornell University)|Feb 4, 2026
Topic Modeling被引用数 0
ひとこと要約

本論文は時系列QAにおける拒否を訓練する際、CoT-SFTの初期フェーズに続き拒否を意識した報酬での強化学習(RL)を用いることで、TimeQAの正確一致(Exact-Match)と解答不能の真陽性を改善できる一方、SFTは過信を招く可能性があることを示す。

ABSTRACT

Large language models (LLMs) rarely admit uncertainty, often producing fluent but misleading answers, rather than abstaining (i.e., refusing to answer). This weakness is even evident in temporal question answering, where models frequently ignore time-sensitive evidence and conflate facts across different time-periods. In this paper, we present the first empirical study of training LLMs with an abstention ability while reasoning about temporal QA. Existing approaches such as calibration might be unreliable in capturing uncertainty in complex reasoning. We instead frame abstention as a teachable skill and introduce a pipeline that couples Chain-of-Thought (CoT) supervision with Reinforcement Learning (RL) guided by abstention-aware rewards. Our goal is to systematically analyze how different information types and training techniques affect temporal reasoning with abstention behavior in LLMs. Through extensive experiments studying various methods, we find that RL yields strong empirical gains on reasoning: a model initialized by Qwen2.5-1.5B-Instruct surpasses GPT-4o by $3.46\%$ and $5.80\%$ in Exact Match on TimeQA-Easy and Hard, respectively. Moreover, it improves the True Positive rate on unanswerable questions by $20\%$ over a pure supervised fine-tuned (SFT) variant. Beyond performance, our analysis shows that SFT induces overconfidence and harms reliability, while RL improves prediction accuracy but exhibits similar risks. Finally, by comparing implicit reasoning cues (e.g., original context, temporal sub-context, knowledge graphs) with explicit CoT supervision, we find that implicit information provides limited benefit for reasoning with abstention. Our study provides new insights into how abstention and reasoning can be jointly optimized, providing a foundation for building more reliable LLMs.

研究の動機と目的

  • 情報タイプと訓練方法がLLMの拒否付き時系列推論に与える影響を調査する。
  • 監督付き微調整を超える拒否機能を伴う時系列推論を強化学習(RL)で評価する。
  • 時系列QAにおける暗黙的推論手掛かりと明示的推論手掛かりの拒否性能への影響を検討する。
  • Chain-of-Thought監督と拒否を意識したRL報酬を組み合わせたパイプラインを提供する。

提案手法

  • 拒否付き時系列QAを定義し、暗黙的推論 signals(文脈、時間フィルタ付き文脈、知識グラフ)と明示的推論 signals(CoT)を比較する。
  • KL正則化ポリシー更新を用いた拒否と推論を最適化するGRPOベースの強化学習目的を提案する。
  • 高品質なCoTデータを用いたCoT-SFTのコールドスタートを構築し、報酬組み合わせ形式、解答精度、拒否 signalsを組み合わせた報酬でRL微調整を行う。
  • モデルへ暗黙的推論手掛かりを供給するための時系列関連サブコンテキスト抽出と知識グラフ抽出を設計する。
  • TimeQA Easy/Hardおよび非時系列のOODデータセットで複数のモデルサイズと設定(SFT対RL)を評価する。

実験結果

リサーチクエスチョン

  • RQ1RLを用いた拒否意識報酬で、監督付き手法を超える時系列QAタスクでの性能向上は達成できるか?
  • RQ2異なる情報タイプ(元の文脈、時刻で絞ったサブコンテキスト、知識グラフ)が拒否と時系列推論に与える影響は?
  • RQ3明示的CoT監督は時系列QAにおける拒否のために暗黙的手掛かりより有利か?
  • RQ4全体的な正確さと拒否能力のトレードオフは、様々な訓練設定でどうなるか?
  • RQ5拒否能力は非時系列・OODタスクへどの程度転移するか?

主な発見

  • RLは推論能力で強い利得を生む:1.5BモデルのRLはTimeQA Easy/HardでGPT-4oを3.46–5.80EMポイント上回る。
  • 拒否不能問いに対する真陽性率を、純粋なSFT系と比較して約20ポイント向上させる。
  • SFTは過信を誘発し信頼性を損なう傾向がある一方、RLは予測精度を向上させるがSFTと同様の拒否リスクを仍然抱える。
  • 暗黙的推論手掛かり(元の文脈、時系列関連サブコンテキスト、知識グラフ)は、明示的CoT監督と比べて拒否を伴う推論には限定的な利点を提供する。
  • CoT-SFTコールドスタートは小型モデルにも競争力の結果をもたらす一方、RLなしでは大規模モデルで収穫が減少する傾向がある;CoT-SFTは有効なRL利得を可能にするために不可欠。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。