QUICK REVIEW

[論文レビュー] Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty

Kaitlyn Zhou, Jena D. Hwang|arXiv (Cornell University)|Jan 12, 2024

Topic Modeling被引用数 8

ひとこと要約

本論文は公に展開されている言語モデルは稀にしか不確実性を表現せず、認識論的マーカーを求められたときには過信傾向があり、エンドユーザーがLMの確信性に過度に依存すること、RLHFのバイアスが過信に寄与していることを示している。

ABSTRACT

As natural language becomes the default interface for human-AI interaction, there is a need for LMs to appropriately communicate uncertainties in downstream applications. In this work, we investigate how LMs incorporate confidence in responses via natural language and how downstream users behave in response to LM-articulated uncertainties. We examine publicly deployed models and find that LMs are reluctant to express uncertainties when answering questions even when they produce incorrect responses. LMs can be explicitly prompted to express confidences, but tend to be overconfident, resulting in high error rates (an average of 47%) among confident responses. We test the risks of LM overconfidence by conducting human experiments and show that users rely heavily on LM generations, whether or not they are marked by certainty. Lastly, we investigate the preference-annotated datasets used in post training alignment and find that humans are biased against texts with uncertainty. Our work highlights new safety harms facing human-LM interactions and proposes design recommendations and mitigating strategies moving forward.

研究の動機と目的

公に展開されているLMが質問に答える際に認識論的マーカーをどのように表現するかを評価する。
現実的なタスクにおいてエンドユーザーがLM生成の不確実性をどのように解釈し依存するかを評価する。
LMの過信の起源を特定し、安全な人間-LM対話のための緩和戦略を提案する。

提案手法

GPT、LLaMA-2、Claudeを用い、MMLU風の質問でエピステミック・マーカーを誘発するオープンエンドなプロンプトを用いる。
生成されたマーカーを、正強化子と弱化子に定性的にコード化・分類する。正規表現と人間のラベリングを用いて。
較正済み・過信・過小信の設定で人間実験を実施し、LM由来の認識論マーカーに対するユーザーの依存度を測定する。
GPTおよびLLaMA-2ファミリを横断して、ベース、SFT、RLHFモデルを比較し、報酬モデルとアノテータのバイアスを評価することでRLHFプロセスを分析する。

実験結果

リサーチクエスチョン

RQ1言語モデルは質問に答える際に不確実性を表現するか、またプロンプトはこれにどのように影響するか？
RQ2エンドユーザーはLM生成の認識論的マーカーをどう解釈し、それが依存度と性能にどう影響するか？
RQ3特にRLHFパイプラインにおけるモデル過信の起源は何か、どのように緩和できるか？

主な発見

LMはベースラインのプロンプトで認識論的マーカーの使用を躊躇し、主に平易な陳述を生成する。
確信を表現させる明示的なプロンプトは過信的で往々にして誤答を生み出す（平均的な高信頼度エラー率）。
人間のユーザーはLM生成の確信マーカーや平易な陳述に強く依存し、過度な依存のリスクがある。
較正された認識論的マーカーはユーザーがマーカーの信頼に依存する学習を促すが、過信的なLM出力は長期的なユーザー判断を妨げる。
RLHFプロセスは報酬モデリングと不確実性に反するアノテータの嗜好を通じて確信へ偏りを導入し、過信に寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。