Skip to main content
QUICK REVIEW

[論文レビュー] SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

Bill Yuchen Lin, Yicheng Fu|arXiv (Cornell University)|May 27, 2023
Topic Modeling被引用数 30
ひとこと要約

SwiftSageは高速なSwiftモジュール(オフラインで訓練された小さなLM)と遅いSageモジュール(LLMベースの計画とグラウンディング)を組み合わせて、30のScienceWorldタスクで最先端の性能を達成し、SayCan、ReAct、Reflexionを上回りつつコスト効率も高い。

ABSTRACT

We introduce SwiftSage, a novel agent framework inspired by the dual-process theory of human cognition, designed to excel in action planning for complex interactive reasoning tasks. SwiftSage integrates the strengths of behavior cloning and prompting large language models (LLMs) to enhance task completion performance. The framework comprises two primary modules: the Swift module, representing fast and intuitive thinking, and the Sage module, emulating deliberate thought processes. The Swift module is a small encoder-decoder LM fine-tuned on the oracle agent's action trajectories, while the Sage module employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a heuristic method to harmoniously integrate the two modules, resulting in a more efficient and robust problem-solving process. In 30 tasks from the ScienceWorld benchmark, SwiftSage significantly outperforms other methods such as SayCan, ReAct, and Reflexion, demonstrating its effectiveness in solving complex interactive tasks.

研究の動機と目的

  • オープンワールド環境で複雑な対話的推論が可能なエージェントの構築を促進する。
  • 高速な模倣学習による行動選択と、遅く熟考的なサブゴール計画とグラウンディングの統合。
  • 包括的なScienceWorldベンチマークでデュアルプロセスのエージェントを評価し、既存のベースラインと比較する。

提案手法

  • Swiftモジュール: オラクル軌跡でオフライン訓練された小さなエンコーダ-デコーダLM(T5-largeスタイル、770Mパラメータ)で、長いアクション履歴をエンコードし次のアクションを予測する(System 1)。
  • Sageモジュール: 2段階のプロンプト(計画とグラウンディング)を用いたGPT-4ベースの計画とグラウンディングで、サブゴールを生成し、それらを実行可能なアクション列(バッファ付きアクションプラン)に変換する。
  • 統合: ヒューリスティック制御器が条件に基づいてSwiftとSageを切り替える(報酬が非ゼロの場合は継続、無効または例外的な予測時、または重大な決定時に切替)。
  • Swiftの訓練は、最新の10アクションのスライディングウィンドウと訪問済み部屋の履歴を用いた多段階の模倣学習で、バイアスを減らし初期ステップの精度を向上させる。
  • グラウンディング段階は、正式なアクション文法とアクションバッファを用いて長期的なサブゴールを実行可能なアクション列に変換する。

実験結果

リサーチクエスチョン

  • RQ1高速な模倣学習と遅く慎重なLLM計画を組み合わせたデュアルプロセスのエージェントは、既存の対話タスクエージェントを上回ることができるか?
  • RQ22段階のSageモジュールを用いた計画-グラウンディングは、単一段のプロンプティング手法よりも例外処理と長期タスク完遂を改善するか?
  • RQ3必要時にのみ熟考をトリガーすることで、LLM推論コストを抑えつつより高いタスク完遂を達成できるか?
  • RQ4SayCan、ReAct、Reflexionなどのベースラインと比較して、ScienceWorld内の長さと難易度が異なるタスクでSwiftSageの性能はどうなるか。

主な発見

  • SwiftSageはScienceWorldベンチマークで総合スコア84.68を達成し、SayCan (33.82)、ReAct (36.43)、Reflexion (45.34)を上回る。
  • Swift単独の構成は49.26に達するが、Sageの計画とグラウンディングを活用する完全なSwiftSageシステムがより高い性能を達成する。
  • Sageモジュールは計画あたり約5アクションに削減され、他のLLMベース手法よりもアクションあたりのコストが低く、SwiftSageはアクションあたり757.07トークン(tpa)を発生させる。
  • SwiftSageはSayCan、ReAct、Reflexionなどの従来手法よりも、環境特有の例外処理においてより高い効率と頑健性を示す。
  • 2段階の計画-グラウンディング手法は長期的な計画とサブゴールを実行可能なアクション列へ変換を可能にし、単一アクションのLLM生成よりもグラウンディングの安定性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。