Skip to main content
QUICK REVIEW

[論文レビュー] MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

Xingyilang Yin, Chengzhengxu Li|arXiv (Cornell University)|Feb 28, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

MLLM-4Dは二段階のポストトレーニング手法と自動 stereo-video データキュレーションパイプラインを導入し、アーキテクチャ変更なしで視覚ベースの4D時空理解と推論をマルチモーダルLLMに提供します。大規模なSFT/RFTデータセット(MLLM4D-2M、MLLM4D-R1-30k)と包括的な評価ベンチ(MLLM4D-Bench)を提供し、2D RGB入力からの最先端の4D推論を実現します。

ABSTRACT

Humans are born with vision-based 4D spatial-temporal intelligence, which enables us to perceive and reason about the evolution of 3D space over time from purely visual inputs. Despite its importance, this capability remains a significant bottleneck for current multimodal large language models (MLLMs). To tackle this challenge, we introduce MLLM-4D, a comprehensive framework designed to bridge the gaps in training data curation and model post-training for spatiotemporal understanding and reasoning. On the data front, we develop a cost-efficient data curation pipeline that repurposes existing stereo video datasets into high-quality 4D spatiotemporal instructional data. This results in the MLLM4D-2M and MLLM4D-R1-30k datasets for Supervised Fine-Tuning (SFT) and Reinforcement Fine-Tuning (RFT), alongside MLLM4D-Bench for comprehensive evaluation. Regarding model training, our post-training strategy establishes a foundational 4D understanding via SFT and further catalyzes 4D reasoning capabilities by employing Group Relative Policy Optimization (GRPO) with specialized Spatiotemporal Chain of Thought (ST-CoT) prompting and Spatiotemporal reward functions (ST-reward) without involving the modification of architecture. Extensive experiments demonstrate that MLLM-4D achieves state-of-the-art spatial-temporal understanding and reasoning capabilities from purely 2D RGB inputs. Project page: https://github.com/GVCLab/MLLM-4D.

研究の動機と目的

  • マルチモーダルLLMの大規模4D instructionalデータの不足を解消する。
  • ステレオ動画を自動的に4D instructional QAデータへ変換するパイプラインを開発する。
  • 2段階のポストトレーニングワークフロー(SFTとGRPOベースのRFT)を通じて4D理解を実現する。
  • 4D推論を物理ベースの時空ダイナミクスに grounding するST-CoTプロンプティングとSTリワード関数を導入する。

提案手法

  • 自動データキュレーションパイプラインがステレオ動画データセットを各フレームのカメラ姿勢、物体レベルの3D点、意味記述を含む4D instructionalデータへ再利用。
  • 物理ベースの時空関係ソルバーで地上真実の4D関係を計算しQAペアを生成。
  • ST-CoTプロンプティングを用いて時間を通じた視覚物理の推論 grounding。
  • ST-CoTプロンプティングとSpatiotemporal Reward (ST-reward)を用いたGRPOで、アーキテクチャ変更なしに4D推論を洗練。
  • 二段階ポストトレーニング:基盤となる4D理解のためのSFT、進んだ4D推論のためのGRPOベースRFT。
  • データセット:SFT用のMLLM4D-2M、RFT用のMLLM4D-R1-30k、評価用のMLLM4D-Bench。

実験結果

リサーチクエスチョン

  • RQ1純粋な2D RGB動画ベースのモデルが高品質の4Dデータと専門的トレーニングで最先端の4D時空理解を達成できるか。
  • RQ2自動化されたステレオ動画データキュレーションは、スケーラブルな4D instructionalデータ生成にどれほど効果的か。
  • RQ3GRPOとST-CoTおよびST-rewardを用いると、動的シーンにおける4D推論はSFTだけを上回るか。
  • RQ4ST-rewardは4D時空推論 grounding にどのような影響を与えるか。

主な発見

  • MLLM-4DはRGB動画入力からの4D時空理解と推論で最先端を達成し、MLLM4D-BenchおよびVLM4Dベンチマークで良好な成績を示す。
  • 二段階ポストトレーニング(SFT→GRPOベースRFT)はベースラインより大きな利得を生み、ST-rewardの提供する改善が最も大きい。
  • 自動化ステレオ動画データキュレーションパイプラインは高品質の4D instructionalデータを生成し、アブレーションでモノラルデータパイプラインを上回る。
  • ST-CoTプロンプトはモデルを視覚物理エンジンとして機能させ、4D軌道に推論を grounding。
  • GRPOとST-rewardは、ST-rewardなしおよびSFTのみと比べて4D推論を著しく改善。
  • MLLM4D-Benchでは、Qwen3-VL-8Bバリアントが平均72.7%を達成(報告された方法の中で最高)。
  • VLM4Dでは、Qwen3-VL-8BのようなMLLM-4Dバリアントが平均63.1%を達成(GRPO with ST-reward)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。