Skip to main content
QUICK REVIEW

[論文レビュー] Conformal Prediction with Large Language Models for Multi-Choice Question Answering

Bhawesh Kumar, Charlie Lu|arXiv (Cornell University)|May 28, 2023
Topic Modeling被引用数 14
ひとこと要約

本研究は MCQA に対する conformal prediction を LLaMA-13B で適用し、カバレッジ保証と選択的分類に有用な不確実性を示し、タスク間の交換可能性を検討する。

ABSTRACT

As large language models continue to be widely developed, robust uncertainty quantification techniques will become crucial for their safe deployment in high-stakes scenarios. In this work, we explore how conformal prediction can be used to provide uncertainty quantification in language models for the specific task of multiple-choice question-answering. We find that the uncertainty estimates from conformal prediction are tightly correlated with prediction accuracy. This observation can be useful for downstream applications such as selective classification and filtering out low-quality predictions. We also investigate the exchangeability assumption required by conformal prediction to out-of-subject questions, which may be a more realistic scenario for many practical applications. Our work contributes towards more trustworthy and reliable usage of large language models in safety-critical situations, where robust guarantees of error rate are required.

研究の動機と目的

  • 高リスクな MCQA タスクにおける LLMs の頑健な不確実性の定量化を動機づける。
  • MCQA 出力に対して保証されたカバレッジを生む予測集合を作成するために conformal prediction を適用する。
  • conformal uncertainty が正確性とどのように相関するかを評価し、選択的分類を可能にできるかを検討する。
  • calibration データと評価データが異なる場合のカバレッジに対する exchangeability の影響を評価する。

提案手法

  • MCQA を A-D の 4 選択肢を用いた教師あり分類問題として定式化し、LLaMA-13B で各選択肢のロジットを計算する。
  • ロジットをソフトマックス確率に変換し、各主題につき 10 個のプロンプトを生成して質問ごとに複数の確率出力を得る。
  • 最も曖昧でない集合型分類器(LAC)を用いた conformal prediction を適用し、ターゲットカバレッジの閾値 q_alpha をキャリブレーションする。
  • C(X) = {y : S(X,y) ≤ q_alpha} の予測集合を構築し、exchangeability の下でユーザ指定のカバレッジを保証する。
  • ビジネス、医療、計算機科学の 3 分野に分かれた 16 主題で、キャリブレーションと評価の分割をランダムに実験する。
  • conformal prediction をナイーブな top-k の予測と比較し、集合サイズと正確性の関係を分析する。
Figure 1 : LLaMA MCQA accuracy is similar for GPT-4 generated questions and real MMLU questions across subjects. For most MMLU subjects, prediction accuracy using one-shot GPT-4 generated questions is similar to when actual MMLU questions are used in one-shot prompts. Results are averaged over ten r
Figure 1 : LLaMA MCQA accuracy is similar for GPT-4 generated questions and real MMLU questions across subjects. For most MMLU subjects, prediction accuracy using one-shot GPT-4 generated questions is similar to when actual MMLU questions are used in one-shot prompts. Results are averaged over ten r

実験結果

リサーチクエスチョン

  • RQ1conformal prediction は LLM を用いた MCQA タスクに対して有効なカバレッジ保証を提供するか?
  • RQ2conformal prediction の不確実性(予測集合の大きさ)は、さまざまな主題で実際の正確度とどのように関係するか?
  • RQ3高い不確実性の予測を除外することで conformal prediction は選択的分類をサポートできるか?
  • RQ4キャリブレーションデータと評価データの交換可能性が破られた場合、カバレッジ保証はどう影響を受けるか?
  • RQ5conformal キャリブレーションを適用する前のナイーブな softmax 出力のキャリブレーション状態はどうか?

主な発見

  • Conformal prediction は全主題で所望のカバレッジを達成する(例:alpha = 0.1 で 90%) 。
  • 予測集合のサイズは Top-1 正確度と負の相関があり、不確実なケースをフィルタリングすることで選択的分類を可能にする。
  • conformal prediction によって生成される予測集合は入力ごとにサイズが適応され、固定サイズの top-k セットよりもカバレッジをより安定して維持する。
  • キャリブレーションを一つの主題で行い、別の主題で評価すると、主題が異なる領域に属する場合カバレッジが低下する可能性があり、exchangeability の制約を強調する。
  • ナイーブな softmax キャリブレーションは平均的には比較的良いが、尾部分布で過信・過小信の傾向を示し、 conformal キャリブレーションの必要性を正当化する。
Figure 2 : The accuracy distribution across subjects for ten prompts. We plot the distribution of accuracy for ten different one-shot prompts.
Figure 2 : The accuracy distribution across subjects for ten prompts. We plot the distribution of accuracy for ten different one-shot prompts.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。