QUICK REVIEW

[논문 리뷰] SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

Bill Yuchen Lin, Yicheng Fu|arXiv (Cornell University)|2023. 05. 27.

Topic Modeling인용 수 30

한 줄 요약

SwiftSage는 빠른 Swift 모듈(오프라인으로 훈련된 소형 LM)과 느린 Sage 모듈(LLM 기반 기획 및 접지)을 결합하여 30 ScienceWorld 작업에서 최첨단 성능을 달성하고 SayCan, ReAct, Reflexion보다 우수한 성능을 보이며 비용도 더 효율적이다.

ABSTRACT

We introduce SwiftSage, a novel agent framework inspired by the dual-process theory of human cognition, designed to excel in action planning for complex interactive reasoning tasks. SwiftSage integrates the strengths of behavior cloning and prompting large language models (LLMs) to enhance task completion performance. The framework comprises two primary modules: the Swift module, representing fast and intuitive thinking, and the Sage module, emulating deliberate thought processes. The Swift module is a small encoder-decoder LM fine-tuned on the oracle agent's action trajectories, while the Sage module employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a heuristic method to harmoniously integrate the two modules, resulting in a more efficient and robust problem-solving process. In 30 tasks from the ScienceWorld benchmark, SwiftSage significantly outperforms other methods such as SayCan, ReAct, and Reflexion, demonstrating its effectiveness in solving complex interactive tasks.

연구 동기 및 목표

오픈 월드 환경에서 복잡한 인터랙티브 추론 능력을 갖춘 에이전트의 구축을 동기화한다.
빠른 imitator-학습된 행동 선택과 느린 심층적 소목표 기획 및 접지를 통합한다.
다양한 ScienceWorld 벤치마크에서 듀얼 프로세스 에이전트를 평가하고 기존 기반선과 비교한다.

제안 방법

Swift 모듈: 오프라인으로 oracle 궤적에서 학습된 소형 인코더-디코더 LM(T5-large 스타일, 770M 매개변수)로 긴 행동 이력을 인코드하고 다음 행동을 예측한다(System 1).
Sage 모듈: planning과 grounding의 두 단계 프롬프트를 사용하는 GPT-4 기반 기획 및 접지로 하위 목표를 생성하고 이를 실행 가능한 행동 시퀀스로 변환(버퍼링된 행동 계획).
통합: 보상 비제로인 경우 고수적으로 Stick하고, 잘못되거나 예외적 예측 시 또는 중요한 결정 시에 Swift와 Sage 사이를 전환하는 휴리스틱 컨트롤러.
Swift 학습은 최근 10개의 행동의 슬라이딩 윈도우와 방문한 방의 기록을 사용한 다중 홉 모방 학습으로 바이어스를 줄이고 초기 단계 정확도를 높인다.
접지 단계는 형식적 행동 문법과 행동 버퍼를 사용하여 장기 목표를 실행 가능한 행동 시퀀스로 전환한다.

실험 결과

연구 질문

RQ1빠른 imitator 학습과 느리고 신중한 LLM 기획을 결합한 듀얼 프로세스 에이전트가 기존 인터랙티브 작업 에이전트를 능가할 수 있는가?
RQ2두 단계 Sage 모듈의 기획-접지가 단일 단계 프롕팅 방식보다 예외 처리와 장기 목표 달성에 도움을 주는가?
RQ3필요할 때만 심층적 사고를 촉발시켜 LLM 추론 비용을 낮추면서 더 높은 작업 완수를 달성할 수 있는가?
RQ4ScienceWorld 내 다양한 길이와 복잡성의 작업에서 SayCan, ReAct, Reflexion 같은 벤치마크와 비교하여 SwiftSage의 성능은 어떤가?

주요 결과

SwiftSage는 ScienceWorld 벤치마크에서 종합 점수 84.68을 달성해 SayCan(33.82), ReAct(36.43), Reflexion(45.34)을 상회한다.
Swift-전용 구성은 49.26에 도달하지만 Sage의 기획 및 접지를 활용하는 전체 SwiftSage 시스템이 더 높은 성능을 달성한다.
Sage 모듈은 계획당 약 5개의 행동으로 축소되며 다른 LLM 기반 방법보다 낮은 비용의 실행을 제공하며, SwiftSage의 경우 행동당 토큰 757.07(tpa)이 소요된다.
SwiftSage는 SayCan, ReAct, Reflexion 등 이전 방법보다 환경 특이적 예외를 처리하는 데 있어 더 높은 효율성과 강건성을 보인다.
2단계의 기획-접지 접근법은 장기 목표 설계와 하위 목표를 실행 가능한 행동 시퀀스로 변환하는 데 기여하여 단일 행동 LLM 생성보다 접지의 안정성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.