[論文レビュー] CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing
CRITICは凍結されたLLMが外部ツールと対話することで出力を検証・逐次修正できるようにし、追加の訓練なしに真実性、数学的プログラム生成、および有害性の低減を改善する。
Recent developments in large language models (LLMs) have been impressive. However, these models sometimes show inconsistencies and problematic behavior, such as hallucinating facts, generating flawed code, or creating offensive and toxic content. Unlike these models, humans typically utilize external tools to cross-check and refine their initial content, like using a search engine for fact-checking, or a code interpreter for debugging. Inspired by this observation, we introduce a framework called CRITIC that allows LLMs, which are essentially "black boxes" to validate and progressively amend their own outputs in a manner similar to human interaction with tools. More specifically, starting with an initial output, CRITIC interacts with appropriate tools to evaluate certain aspects of the text, and then revises the output based on the feedback obtained during this validation process. Comprehensive evaluations involving free-form question answering, mathematical program synthesis, and toxicity reduction demonstrate that CRITIC consistently enhances the performance of LLMs. Meanwhile, our research highlights the crucial importance of external feedback in promoting the ongoing self-improvement of LLMs.
研究の動機と目的
- 高価なデータやファインチューニングなしに、LLMの不整合や安全性が低い挙動を減らすことを動機づける。
- 外部ツールを介したLLM出力の自己検証と自己修正を、人間のようなフィードバックループで可能にする。
- 複数のタスクにおいて、ツールからのフィードバックが信頼性の高い自己改善に不可欠であることを示す。
- 多様なLLMとタスクにわたるCRITICフレームワークの普遍性を示す。
提案手法
- CRITICを提案する。プラグアンドプレイ型のフレームワークで、LLMがまず初期出力を生成し、外部ツール(例:検索エンジン、コードインタプリタ)と対話して批評を得ることで検証する。
- few-shotプロンプトを用いたコンテキスト学習を用いて、タスク特化の訓練なしにツールによる検証と反復修正を可能にする。
- verify–correct–verifyループ(Algorithm 1)を適用して、停止条件が満たされるまで出力を反復的に精練する。
- 批評を、ツール補助検証から導かれた自然言語のフィードバックとして表現し、次回の生成を導く。
- 修正が初期出力と批評、さらにはツール結果の両方に条件づけられることを示す。
- 複数のLLMに対して、CRITICを自由形式のQA、数学的プログラム合成、および有害性の低減で評価する。
実験結果
リサーチクエスチョン
- RQ1外部ツールとの相互作用は、追加の訓練なしにブラックボックスLLMの出力の真実性と品質を向上させることができるか。
- RQ2verify–correct–verifyループは、QA、数学的プログラミング、および有害性低減タスクの性能にどのような影響を与えるか。
- RQ3信頼性の高い改善を達成する際の外部フィードバックと自己修正の役割は何か。
- RQ4CRITICによる改善は、異なるベースLLMとツール構成に共通して一般化するか。
主な発見
- CRITICはChatGPTにおける3つのQAタスクで7.7のF1改善を達成。
- CRITICは3つの数学的推論タスクで絶対7.0パーセントポイントの増加を達成。
- CRITICは有害性低減実験で有害性確率を79.2%低減。
- CRITICは、タスク特化の訓練や追加データを必要とせず、従来技術を一貫して上回る。
- ツール対話からの外部フィードバックは信頼できる自己改善にとって不可欠であり、自己修正のみでは信頼性が低い場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。