QUICK REVIEW

[論文レビュー] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies

Liangming Pan, Michael Saxon|arXiv (Cornell University)|Aug 6, 2023

Topic Modeling被引用数 24

ひとこと要約

この調査はLLMの自動自己修正アプローチを整理し、訓練時、生成時、事後修正の各方法と自動フィードバック源を整理する。

ABSTRACT

Large language models (LLMs) have demonstrated remarkable performance across a wide array of NLP tasks. However, their efficacy is undermined by undesired and inconsistent behaviors, including hallucination, unfaithful reasoning, and toxic content. A promising approach to rectify these flaws is self-correction, where the LLM itself is prompted or guided to fix problems in its own output. Techniques leveraging automated feedback -- either produced by the LLM itself or some external system -- are of particular interest as they are a promising way to make LLM-based solutions more practical and deployable with minimal human feedback. This paper presents a comprehensive review of this emerging class of techniques. We analyze and taxonomize a wide array of recent work utilizing these strategies, including training-time, generation-time, and post-hoc correction. We also summarize the major applications of this strategy and conclude by discussing future directions and challenges.

研究の動機と目的

現実と異なる hallucinations、信頼性の乏しい推論、毒性など、望ましくないLLMの挙動に対処する必要性を動機づけ、明示する。
訓練時、生成時、事後修正を通じた自動フィードバックを含む自動自己修正の包括的な分類法を提供する。
フィードバックの源泉と形式を検討し、フィードバックがモデルを洗練または修正する方法を検討する。
主要な応用を要約し、自己修正LLMの今後の方向性と課題を概説する。

提案手法

Language Model、Critic Model、Refine Model の3つの役者を用いた概念的枠組みを提案する。
何を修正するか、フィードバックの源泉/形式、修正のタイミング、洗練戦略に基づいて成果を分類する。
既存の文献を訓練時、生成時、事後修正に分類する。
自動フィードバックの源泉を調査する。自己フィードバックを含むほか、モデル、ツール、知識源からの外部フィードバックを含む。
微調整、RLHF、自己学習、再ランキングを含む代表的手法と学習パラダイムを説明する。
代表的な研究とその主要特徴を要約する表を提示する。

実験結果

リサーチクエスチョン

RQ1自動自己修正によって対象とされるLLM出力のエラーのタイプは何か？
RQ2LLMの修正に用いられる自動フィードバックの源泉と形式は何か？
RQ3訓練時、生成時、事後修正の方法はどのように比較され、いつ最も適切か？
RQ4自動フィードバックを用いてLLMsを洗練させる際の共通戦略と学習パラダイムは何か？

主な発見

自動フィードバックは、自己生成信号や外部ツールおよび知識源から得られて修正を導くことができる。
修正アプローチは訓練時、生成時、事後戦略に分類され、微調整、再ランキング、反復的洗練の依存度が異なる。
毒性、幻覚、および信頼性の乏しい推論は、QA、推論、コード生成などのタスク全般で主な対象である。
スカラー信号や自然言語の記述を含む多様なフィードバック形式があり、表現力と収集の容易さのトレードオフがある。
調査は幅広い応用を示し、拡張性のある自動化されたLLM自己修正の将来の方向性と課題を指摘している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。