[論文レビュー] DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent)
DoraemonGPT は、タスク関連の象徴メモリ、サブタスクツール、外部知識、および MCTS プランナーを用いて複数の解法を探索し、改良された回答を提供する、動的ビデオタスク対応の LLM 主導エージェントです。NExT-QA でいくつかのベースラインを上回ります。
Recent LLM-driven visual agents mainly focus on solving image-based tasks, which limits their ability to understand dynamic scenes, making it far from real-life applications like guiding students in laboratory experiments and identifying their mistakes. Hence, this paper explores DoraemonGPT, a comprehensive and conceptually elegant system driven by LLMs to understand dynamic scenes. Considering the video modality better reflects the ever-changing nature of real-world scenarios, we exemplify DoraemonGPT as a video agent. Given a video with a question/task, DoraemonGPT begins by converting the input video into a symbolic memory that stores task-related attributes. This structured representation allows for spatial-temporal querying and reasoning by well-designed sub-task tools, resulting in concise intermediate results. Recognizing that LLMs have limited internal knowledge when it comes to specialized domains (e.g., analyzing the scientific principles underlying experiments), we incorporate plug-and-play tools to assess external knowledge and address tasks across different domains. Moreover, a novel LLM-driven planner based on Monte Carlo Tree Search is introduced to explore the large planning space for scheduling various tools. The planner iteratively finds feasible solutions by backpropagating the result's reward, and multiple solutions can be summarized into an improved final answer. We extensively evaluate DoraemonGPT's effectiveness on three benchmarks and several in-the-wild scenarios. The code will be released at https://github.com/z-x-yang/DoraemonGPT.
研究の動機と目的
- 静止画像を超えて動的場面を理解する必要性を動機づけ、対応する。
- 動的ビデオタスクのためのメモリとツールに基づく LLM フレームワークを提案する。
- 大規模な計画空間を効率的に探索し、複数の実現可能な解を生成するために MCTS プランナーを活用する。
- モデルの内部知識を超える領域理解を拡張するために外部知識源を取り入れる。
提案手法
- 動的タスクを、空間支配属性と時間支配属性から成るタスク関連象徴メモリに分解する。
- 象徴メモリを照会し推論を行うための、LLM 主導のサブタスクツールを導入する(例:Why、How、When、What、Count)。
- 象徴的・文本・ウェブの知識ツールを通じて外部知識源を統合し、領域固有のニーズに対応する。
- 複数の解法パスを探索し、報酬をバックプロパゲートし、複数の実現可能な回答を要約するためのモンテカルロ木探索プランナーを採用する。
- さまざまなファウンデーションモデルおよびビデオアプリケーションに適合する、記憶拡張型のプラグアンドプレー構成を利用する。
実験結果
リサーチクエスチョン
- RQ1動的ビデオコンテンツをどのように効果的にタスク関連の象徴メモリへ変換して推論に活用できるか。
- RQ2動的ビデオタスクにおいて、サブタスクツール実行の大規模計画空間を MCTS ベースのプランナーが効率的に探索できるか。
- RQ3外部知識を取り入れることで、LLM の内部知識を超えるビデオ推論の事実的一貫性が向上するか。
- RQ4提案手法 DoraemonGPT は、動的ビデオ推論のベンチマークで既存の LLM 主導モデルや監視型モデルと比較してどの程度性能を示すか。
主な発見
| Method | Split | Acc_C | Acc_T | Acc_D | Avg | Acc_A |
|---|---|---|---|---|---|---|
| HME | val | 46.2 | 48.2 | 58.3 | 50.9 | 48.7 |
| VQA-T | val | 41.7 | 44.1 | 60.0 | 48.6 | 45.3 |
| ATP | val | 53.1 | 50.2 | 66.8 | 56.7 | 54.3 |
| VGT | val | 52.3 | 55.1 | 64.1 | 57.2 | 55.0 |
| VGT | s_val | 49.7 | 53.3 | 63.7 | 55.6 | 55.6 |
| MIST | val | 54.6 | 56.6 | 66.9 | 59.3 | 57.2 |
| MIST | s_val | 51.7 | 55.3 | 67.0 | 58.0 | 58.0 |
| ViperGPT | ICCV | 29.7 | 37.3 | 47.3 | 38.1 | 38.1 |
| ViperGPT | s_val | 33.0 | 40.1 | 48.8 | 40.8 | 40.8 |
| VideoChat | s_val | - | 46.7 | 45.3 | 61.0 | 51.0 |
| DoraemonGPT | s_val | 52.3 | 45.7 | 64.0 | 54.0 | 54.0 |
- DoraemonGPT は NExT-QA で競争力のある結果を達成し、因果/時間/記述推論などのいくつかの指標で ViperGPT を上回る。
- NExT-QA s_val において DoraemonGPT は 52.3 (Acc_C)、45.7 (Acc_T)、64.0 (Acc_D) を記録し、平均 54.0、Acc_A も 54.0。
- タスク関連メモリを備えた MCTS プランナーは複数の実現可能な解を探索可能とし、N が増えるほど正確さが向上する(例:解の数が 1 から 4 へ増える場合)。
- 空間支配メモリと時間支配メモリの組み合わせは最良の性能をもたらし、動的質問には両方のメモリタイプが必要であることを確認する。
- DoraemonGPT は外部知識の統合と複数の中間結果の要約を通じて、野外環境での頑健性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。