Skip to main content
QUICK REVIEW

[論文レビュー] Knowing When to Abstain: Medical LLMs Under Clinical Uncertainty

Sravanthi Machcha, Sushrita Yerra|arXiv (Cornell University)|Jan 18, 2026
Topic Modeling被引用数 0
ひとこと要約

MedAbstain は、LLM が回答を控えるべき時を検討するために、識別不能性を研究するための conformal prediction、敵対的摂動、および明示的 abstention を組み合わせた医療MCQAの統一ベンチマークを導入する。結果は、abstention オプションがモデルの不確実性とより安全な abstention を入力摂動よりも確実に高めることを示す。

ABSTRACT

Current evaluation of large language models (LLMs) overwhelmingly prioritizes accuracy; however, in real-world and safety-critical applications, the ability to abstain when uncertain is equally vital for trustworthy deployment. We introduce MedAbstain, a unified benchmark and evaluation protocol for abstention in medical multiple-choice question answering (MCQA) -- a discrete-choice setting that generalizes to agentic action selection -- integrating conformal prediction, adversarial question perturbations, and explicit abstention options. Our systematic evaluation of both open- and closed-source LLMs reveals that even state-of-the-art, high-accuracy models often fail to abstain with uncertain. Notably, providing explicit abstention options consistently increases model uncertainty and safer abstention, far more than input perturbations, while scaling model size or advanced prompting brings little improvement. These findings highlight the central role of abstention mechanisms for trustworthy LLM deployment and offer practical guidance for improving safety in high-stakes applications.

研究の動機と目的

  • 不確実性の下で abstention を可能にすることにより、高リスクな医療設定での LLM の安全な展開を動機付ける。
  • 医療MCQA における abstention-uncertainty を評価する統一ベンチマーク(MedAbstain)を開発する。
  • Open モデルと Closed モデルの不確実性を、conformal prediction と abstention および摂動を統合して定量化する。
  • モデルサイズ、プロンプティング、推論モードが医療QA における abstention およびキャリブレーションに与える影響を評価する。

提案手法

  • 明示的な abstention オプション(NA, A, NAP, AP)を持つ元問題と改変MCQA の作成。
  • conformal prediction を用いて 90% カバー率(alpha=0.1)を目標とする不確実性ベースの予測集合を生成。
  • Zero-shot、Few-shot、Chain-of-Thought prompting 設定を横断して、オープンソースとクローズドソースの LLM を評価する。
  • キャリブレーションとテストスプリット(キャリブレーション 30%、テスト 70%)を用いて CP スコア(LAC および APS)とサイズを算出する。
  • 臨床データ欠損を模擬する意味で情報除去を伴う敵対的摂動を組み込み、abstention 応答を分析する。

実験結果

リサーチクエスチョン

  • RQ1医療MCQA において明示的な abstention オプションを提供することは、モデルの不確実性と abstention 行動にどう影響するか?
  • RQ2入力摂動、モデルサイズ、 prompting 戦略は、不確実性と safe abstention にどのように影響するか?
  • RQ3Conformal prediction は医療QA における abstention の堅牢なモデル非依存の不確実性定量化を提供できるか?
  • RQ4臨床的不確実性の下で、open と closed の LLM 闘の abstention 行動にはどのような違いが現れるか?

主な発見

  • abstention オプションは、データセットをまたいでモデルの不確実性とより安全な abstention を一貫して高める。
  • 質問の摂動は abstention を有効にするよりも不確実性に与える影響が小さい。
  • モデルサイズの拡大や指示調整を行っても、abstention の性能が必ずしも向上するとは限らない。
  • Conformal prediction は堅牢な不確実性定量化を提供し、過度に自信過剰な出力を特定する。
  • 思考モード(CoT)は正確性と abstention に与える影響が限定的であり、いくつかのクローズドモデルには例外がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。