[論文レビュー] Making Language Models Better Tool Learners with Execution Feedback
TRICEは実行フィードバックを通じて外部ツールの使用時期と方法を学習させる二段階フレームワーク。選択的なツール使用を改善し、エラー伝播を低減します。
Tools serve as pivotal interfaces that enable humans to understand and reshape the environment. With the advent of foundation models, AI systems can utilize tools to expand their capabilities and interact with the real world. Existing tool learning methodologies, encompassing supervised fine-tuning and prompt engineering approaches, often induce large language models to utilize tools indiscriminately, as complex tasks often exceed their own competencies. However, introducing tools for simple tasks, which the models themselves can readily resolve, can inadvertently propagate errors rather than enhance performance. This leads to the research question: can we teach language models when and how to use tools? To meet this need, we propose Tool leaRning wIth exeCution fEedback (TRICE), a two-stage end-to-end framework that enables the model to continually learn through feedback derived from tool execution, thereby learning when and how to use tools effectively. Experimental results, backed by further analysis, show that TRICE can make the large language model selectively use tools by improving the accuracy of tool usage while enhancing insufficient tool learning and mitigating excessive reliance on tools. Code is available at https://github.com/zjunlp/TRICE.
研究の動機と目的
- ツールがLLMにとって本当に必要な時とそうでない時を見極める問題を動機づける。
- 実行フィードバックを通じた選択的ツール使用を教える二段階学習フレームワークを提案する。
- 必要に応じてツール使用ラベルを生成するためのLLMを用いたデータ準備パイプラインを作成する。
- 実行フィードバックがツール使用の正確性を改善し、複数のタスクとバックボーンで過度な依存を減らすことを示す。)
- method:[
提案手法
- ChatGPT生成の疑似ラベルを用いてツール使用が必要かを示すデータセットを準備する。
- Stage I: ツール使用データに基づく指示学習によるツール使用行動の模倣(Behavior Cloning)。
- Stage II: 実行フィードバック付き強化学習(RLEF)で実行ガイダンスとともに望ましいツール使用を強化する。
- モデル出力を望ましい候補応答と整合させるランク付け損失と、出力を制約する监督微調整損失を使用する。
- 回答精度と金標準応答とのツール使用整合性で候補応答を評価する報酬ベース戦略を採用する。
- 単一ツールおよび複数ツール設定で、4つのタスクタイプに跨る8データセットを、複数のバックボーンモデルで評価する。
実験結果
リサーチクエスチョン
- RQ1LLMはツールを呼び出すべき場面を学習できるか、過度なツール依存を避けられるか?
- RQ2実行フィードバックはツール使用の正確性を向上させ、モデルがツールを選択的に使用することを学ぶのを助けるか?
- RQ3Triceによる訓練は未知のデータセットやツールに一般化する程度はどの程度か?
- RQ4二段階の訓練は安定的で効果的なツール学習にどう寄与するか?
主な発見
- Triceは選択的なツール使用を可能にし、タスクおよびバックボーンを超えたプロンプトベースの基準を上回る。
- Stage I(Behavior Cloning)はツール使用能力の基盤を提供し、Stage II(RLEF)は選択性を向上させ過度な依存を緩和する。
- Trice-mix(マルチタスク)訓練は、Trice-split(タスク別)の場合よりも複数のバックボーンで最先端の性能を発揮する。
- Triceは未知のツールとデータセットの一般化を改善し、新しい状況でのツール処理能力を高める。
- 実行フィードバックは誤差伝播を軽減し、Stage Iで観察されたツール学習の不足を解決する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。