[論文レビュー] Internal Consistency and Self-Feedback in Large Language Models: A Survey
本論文は Internal Consistency と Self-Feedback フレームワークを定式化し、LLM の推論を分析・改善し、幻覚を減らすとともに、関連研究を分類し、有効性を評価する。
Large language models (LLMs) often exhibit deficient reasoning or generate hallucinations. To address these, studies prefixed with "Self-" such as Self-Consistency, Self-Improve, and Self-Refine have been initiated. They share a commonality: involving LLMs evaluating and updating themselves. Nonetheless, these efforts lack a unified perspective on summarization, as existing surveys predominantly focus on categorization. In this paper, we use a unified perspective of internal consistency, offering explanations for reasoning deficiencies and hallucinations. Internal consistency refers to the consistency in expressions among LLMs' latent, decoding, or response layers based on sampling methodologies. Then, we introduce an effective theoretical framework capable of mining internal consistency, named Self-Feedback. This framework consists of two modules: Self-Evaluation and Self-Update. The former captures internal consistency signals, while the latter leverages the signals to enhance either the model's response or the model itself. This framework has been employed in numerous studies. We systematically classify these studies by tasks and lines of work; summarize relevant evaluation methods and benchmarks; and delve into the concern, "Does Self-Feedback Really Work?" We also propose several critical viewpoints, including the "Hourglass Evolution of Internal Consistency", "Consistency Is (Almost) Correctness" hypothesis, and "The Paradox of Latent and Explicit Reasoning". The relevant resources are open-sourced at https://github.com/IAAR-Shanghai/ICSFSurvey.
研究の動機と目的
- Internal Consistency を、回答・デコード・潜在レイヤーにまたがるサンプリングベースの定式化として定義する。
- Self-Feedback で自己評価と自己更新を用いてモデル出力を改善する。
- タスクと研究分野に沿って自己フィードバック文献を体系的に分類する。
- 自己フィードバックの評価方法・ベンチマークを要約し、自己フィードバックが本当に機能するか議論する。
- 再現性とさらなる研究を促進するためのオープンソースのコードとデータを提供する。
提案手法
- Internal Consistency を、回答・デコード・潜在表現間のサンプリングベースのコヒーレンスとして定式化する。
- 内部的一貫性が層間で見せる Hourglass Evolution パターンを実証する。
- 自己評価と自己更新からなる Self-Feedback フレームワークを提案し、一貫性シグナルを活用する。
- 自己フィードバックの一貫性シグナル取得手法を六つの系統に分類してレビューする。
- 推論の高揚と幻覚の緩和に分かれた七つの自己フィードバック応用を検討する。
- 自己フィードバックを既存の調査と比較し、理論的・実践的含意を強調する。
実験結果
リサーチクエスチョン
- RQ1LLM における Internal Consistency とは何か、モデルの異なる層でどのように測定できるか。
- RQ2自己フィードバックは推論を改善し幻覚を減らすことができるのか、どの条件下で可能か。
- RQ3自己フィードバックで用いられるさまざまな一貫性シグナルと更新機構は何か。
- RQ4さまざまなタスクとベンチマークにおいて自己フィードバックの有効性はどの程度か。
主な発見
- 自己一貫性はある実験で GSM8K の推論精度を 56.5% から 74.4% に向上させた。
- 自己矛盾は自己矛盾的内容を識別し、モデル間で幻覚を測定可能な割合で減らすことができる(例:報告されたケースで 15.7% から 22.9%)。
- 内部的一貫性は潜在層からデコード層、回答層へと砂時計型の進化を示し、後半段階でより高い確信に収束する。
- プロンプト設計、デコード戦略、潜在状態表現はすべて内部的一貫性の低さに寄与し、モデル規模の拡大だけでは対処できない。
- 本研究は再現性のためのオープンソースの実験コード、参考文献リスト、統計データを提供している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。