[論文レビュー] Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection
本論文は、ブラックボックス型 LLM の信頼度推定を較正するために、モデルが複数の候補回答を反省し正当化してから結合信頼度スコアを推定するマルチアンサー反省フレームワーク(TTA)を導入します。
Self-detection for Large Language Models (LLMs) seeks to evaluate the trustworthiness of the LLM's output by leveraging its own capabilities, thereby alleviating the issue of output hallucination. However, existing self-detection approaches only retrospectively evaluate answers generated by LLM, typically leading to the over-trust in incorrectly generated answers. To tackle this limitation, we propose a novel self-detection paradigm that considers the comprehensive answer space beyond LLM-generated answers. It thoroughly compares the trustworthiness of multiple candidate answers to mitigate the over-trust in LLM-generated incorrect answers. Building upon this paradigm, we introduce a two-step framework, which firstly instructs LLM to reflect and provide justifications for each candidate answer, and then aggregates the justifications for comprehensive target answer evaluation. This framework can be seamlessly integrated with existing approaches for superior self-detection. Extensive experiments on six datasets spanning three tasks demonstrate the effectiveness of the proposed framework.
研究の動機と目的
- ブラックボックス API LLM の信頼度の較正推定を動機づけ、過信と幻視を緩和する。
- 複数の候補回答にわたる信頼性を比較するためのマルチアンサー評価パラダイムを提案する。
- 各回答ごとに正当化を生成し、結合信頼度推定を行う二段階の Think Twice Before Assure (TTA) フレームワークを開発する。
- TTA が較正を改善し、複数のタスクとデータセットにわたる既存の較正手法を強化できることを示す。
提案手法
- 質問に対して N 個の候補回答を考慮するマルチアンサー評価パラダイムを提案し、それらの評価を統合してターゲット回答の信頼度を精緻化する。
- ステップ1:反省と正当化。LLM が指定プロンプト p^e を用いて各候補回答に対する正当化を生成する。
- ステップ2:結合信頼度推定。正当化 e_i を Top-K 言語化法を介してプロンプト p^v を用いて統合し、ターゲット回答の較正済み信頼度 c を得る。
- さらなる較正利得のため、TTA を既存の手法(例:Top-K verbalized、CAPE、または prompt ensembles)と組み合わせることができる。
- 実験では、GPT-3.5、GPT-4、GLM-4 など複数の LLM を用い、三つのタスクをカバーする六つのデータセットに対してベースラインと比較して TTA を評価する。
実験結果
リサーチクエスチョン
- RQ1複数の候補回答を考慮することは、単一回答アプローチと比べて LLM の出力の信頼度の較正にどのような影響を与えるか。
- RQ2二段階の反省と正当化 plus 結合推定フレームワークは、既存の自己整合性やプロンプトアンサンブル法よりも較正を改善できるか。
- RQ3TTA フレームワークは異なるタスク、データセット、LLM に対して頑健か、他の較正技術と相乗効果を発揮できるか。
主な発見
- TTA は、SA、NLI、CQA のタスクとデータセット全体で、いくつかのベースラインに対して較正(AUROC と PRAUC)を改善する。
- TTA を Top-K verbalized または prompt-ensemble 法と組み合わせると、データセットとモデル全体でさらなる較正利得が得られる。
- アブレーション研究は、複数の正当化を共に考慮し、プロンプト内でその順序をシャッフルすることが、性能を向上させ、バイアスを低減することを示す。
- TTA は正しい回答と不正解の回答の信頼度スコアの重複を減らし、選択的予測シナリオを支援する。
- GPT-3.5、GPT-4、GLM-4 など異なる LLM およびターゲット回答で性能向上が観察され、プロンプト設計とタスクタイプに対して若干の感度がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。