[論文レビュー] Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models
本論文は Shifting Attention to Relevance (SAR) を導入し、自由形式の LLM における不確実性推定を改善するために、トークンと文を意味的関連性で重み付けする方法を提案し、複数のモデルとドメインで以前の手法を上回る。
Large Language Models (LLMs) show promising results in language generation and instruction following but frequently "hallucinate", making their outputs less reliable. Despite Uncertainty Quantification's (UQ) potential solutions, implementing it accurately within LLMs is challenging. Our research introduces a simple heuristic: not all tokens in auto-regressive LLM text equally represent the underlying meaning, as "linguistic redundancy" often allows a few keywords to convey the essence of long sentences. However, current methods underestimate this inequality when assessing uncertainty, causing tokens with limited semantics to be equally or excessively weighted in UQ. To correct this, we propose Shifting Attention to more Relevant (SAR) components at both token- and sentence-levels for better UQ. We conduct extensive experiments involving a range of popular "off-the-shelf" LLMs, such as Vicuna, WizardLM, and LLaMA-2-chat, with model sizes extending up to 33B parameters. We evaluate various free-form question-answering tasks, encompassing domains such as reading comprehension, science Q&A, and medical Q&A. Our experimental results, coupled with a comprehensive demographic analysis, demonstrate the superior performance of SAR. The code is available at https://github.com/jinhaoduan/SAR.
研究の動機と目的
- トークンレベルおよび文レベルの生成的不平等が自由形式の LLM における不確実性推定にどのように影響するかを特定する。
- これらの不平等を、より関連性の高い要素(トークンと文)へ注意をシフトさせることによって緩和する方法を提案する。
- 多様な QA タスクと領域にわたって、既製の指示調整済み LLMs および事前学習済み LLMs 上で SAR を評価する。
提案手法
- トークンレベルおよび文レベルの関連性と不確実性の比率(R_T, UP_T, R_S, UP_S)を定義する。
- 意味的類似度関数 g(·) として RoBERTa-large のクロスエンコーダを用いて、トークン削除による意味的変化でトークンレベルの関連性を測定する。
- トークンのエントロピーを正規化された関連性で重み付けしてトークンレベルのシフトエントロピー E_T を計算する(Eq. 7)。
- 生成文間の意味的類似性と生成確率を用いて文レベルの関連性 R_S を計算する(Eq. 4)。
- 文レベルの関連性に対して重み付けして文レベルのシフトエントロピー E_S を計算する(Eq. 9)。
- トークンと文のシフトを組み合わせて SAR を作成する。エントロピー計算において確率を token-SAR由来の p′(s|x) に置換する(Eq. 11)。
実験結果
リサーチクエスチョン
- RQ1トークンレベルおよび文レベルの生成的不平等は、自由形式の LLM 世代における不確実性推定にどのように影響するのか。
- RQ2言語学的に関連性の高い要素へ注意を再重み付けすることで、LLM 出力の不確実性推定の精度が向上するのか。
- RQ3token-SAR、sent-SAR、および SAR は、多様な LLMs とドメインにおいて既存の不確実性指標を上回るのか。
主な発見
- 不確実性推定は、意味的な意味をほとんど持たない無関係なトークンと文によって大きくバイアスされる。
- Token-SAR および sent-SAR は、複数のモデルとデータセットに対してベースラインを一貫して上回る AUROC スコアを改善する。
- Joint SAR(トークンと文のシフト)は、個別の成分よりも優れており、SE や他のベースラインに比べて顕著な向上を示す。
- SAR は指示調整済み LLM(Vicuna、WizardLM、LLaMA-2-chat)および事前学習済み LLM(OPT、LLaMA)に対して、最大 33B パラメータまでの堅牢性を示す。
- 医療 QA ドメイン(MedQA、MedMCQA)において、ほとんどの設定で SAR がより良い性能を達成する。
- SAR は生成効率が高く、わずか 5 回の生成でも強力な結果を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。