[논문 리뷰] DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent)
요약: DoraemonGPT는 작업 관련 상징 기억, 하위 작업 도구, 외부 지식, MCTS 플래너를 사용하여 다양한 솔루션을 탐색하고 향상된 답변을 제공하는 동적 비디오 작업용 LLM 기반 에이전트이며, NExT-QA에서 여러 baselines를 능가합니다.
Recent LLM-driven visual agents mainly focus on solving image-based tasks, which limits their ability to understand dynamic scenes, making it far from real-life applications like guiding students in laboratory experiments and identifying their mistakes. Hence, this paper explores DoraemonGPT, a comprehensive and conceptually elegant system driven by LLMs to understand dynamic scenes. Considering the video modality better reflects the ever-changing nature of real-world scenarios, we exemplify DoraemonGPT as a video agent. Given a video with a question/task, DoraemonGPT begins by converting the input video into a symbolic memory that stores task-related attributes. This structured representation allows for spatial-temporal querying and reasoning by well-designed sub-task tools, resulting in concise intermediate results. Recognizing that LLMs have limited internal knowledge when it comes to specialized domains (e.g., analyzing the scientific principles underlying experiments), we incorporate plug-and-play tools to assess external knowledge and address tasks across different domains. Moreover, a novel LLM-driven planner based on Monte Carlo Tree Search is introduced to explore the large planning space for scheduling various tools. The planner iteratively finds feasible solutions by backpropagating the result's reward, and multiple solutions can be summarized into an improved final answer. We extensively evaluate DoraemonGPT's effectiveness on three benchmarks and several in-the-wild scenarios. The code will be released at https://github.com/z-x-yang/DoraemonGPT.
연구 동기 및 목표
- 정적 이미지를 넘어 동적 장면을 이해해야 하는 필요성을 동기 부여하고 해결합니다.
- 동적 비디오 작업을 위한 기억 및 도구 기반 LLM 프레임워크를 제안합니다.
- 대규모 계획 공간을 효율적으로 탐색하고 여러 실행 가능 솔루션을 생성하기 위해 MCTS 플래너를 활용합니다.
- 모델 내부 지식을 넘어 도메인 이해를 확장하기 위해 외부 지식 소스를 활용합니다.
제안 방법
- 공간-지배적 속성 및 시간-지배적 속성으로 구성된 작업 관련 심볼릭 메모리로 동적 작업을 분해합니다.
- 상징 기억을 질의하고 추론(예: Why, How, When, What, Count)을 수행하기 위한 LLM 주도 하위 작업 도구를 도입합니다.
- 도메인별 필요를 다루기 위해 심볼릭, 텍스트, 웹 등의 지식 도구를 통해 외부 지식 소스를 통합합니다.
- 여러 솔루션 경로를 탐색하고 보상을 역전传播하며 여러 실행 가능 답변을 요약하는 몬테 카를로 트리 탐색( MCTS ) 플래너를 활용합니다.
- 메모리 보강형이고 다양한 기초 모델 및 비디오 응용 프로그램과 호환되는 플러그 앤 플레이 아키텍처를 활용합니다.
실험 결과
연구 질문
- RQ1동적 비디오 콘텐츠를 어떻게 효과적으로 작업 관련 심볼릭 기억으로 변환하여 추론에 활용할 수 있을까?
- RQ2MCTS 기반 플래너가 동적 비디오 작업에서 하위 작업 도구 실행의 방대한 계획 공간을 효율적으로 탐색할 수 있을까?
- RQ3외부 지식의 통합이 LLM의 내부 지식을 넘어 비디오 기반 추론의 사실 정확성을 향상시키는가?
- RQ4제안된 DoraemonGPT가 기존 LLM 주도 및 감독 모델과 비교하여 동적 비디오 추론 벤치마크에서 어떤 성과를 보이나?
주요 결과
| Method | Split | Acc_C | Acc_T | Acc_D | Avg | Acc_A |
|---|---|---|---|---|---|---|
| HME | val | 46.2 | 48.2 | 58.3 | 50.9 | 48.7 |
| VQA-T | val | 41.7 | 44.1 | 60.0 | 48.6 | 45.3 |
| ATP | val | 53.1 | 50.2 | 66.8 | 56.7 | 54.3 |
| VGT | val | 52.3 | 55.1 | 64.1 | 57.2 | 55.0 |
| VGT | s_val | 49.7 | 53.3 | 63.7 | 55.6 | 55.6 |
| MIST | val | 54.6 | 56.6 | 66.9 | 59.3 | 57.2 |
| MIST | s_val | 51.7 | 55.3 | 67.0 | 58.0 | 58.0 |
| ViperGPT | ICCV | 29.7 | 37.3 | 47.3 | 38.1 | 38.1 |
| ViperGPT | s_val | 33.0 | 40.1 | 48.8 | 40.8 | 40.8 |
| VideoChat | s_val | - | 46.7 | 45.3 | 61.0 | 51.0 |
| DoraemonGPT | s_val | 52.3 | 45.7 | 64.0 | 54.0 | 54.0 |
- DoraemonGPT가 NExT-QA에서 경쟁력 있는 성과를 달성하고, 여러 지표에서 ViperGPT를 능가합니다(예: 인과/시간적/서술적 추론).
- NExT-QA s_val에서 DoraemonGPT의 점수는 52.3(Acc_C), 45.7(Acc_T), 64.0(Acc_D), 평균 54.0이며, Acc_A도 54.0입니다.
- 작업 관련 메모리를 가진 MCTS 플래너는 여러 실행 가능 솔루션을 탐색하도록 하며, N이 증가함에 따라 정확도가 향상됩니다(예: 1개에서 4개 솔루션으로).
- 공간-지배적 기억과 시간-지배적 기억의 결합이 최상의 성능을 낳으며, 동적 질문에는 두 가지 기억 유형이 모두 필요하다는 것을 확인합니다.
- DoraemonGPT는 외부 지식을 통합하고 중간 결과를 요약함으로써 실전 환경에서의 강건성을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.