Skip to main content
QUICK REVIEW

[論文レビュー] Mind-of-Director: Multi-modal Agent-Driven Film Previsualization via Collaborative Decision-Making

Shufeng Nan, Mengtian Li|arXiv (Cornell University)|Mar 16, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

この論文は、四つのモジュールと反復的なエージェント・ループを通じて、Unity 上で編集可能な映画のプレビズ seq を共同生成する多模態エージェント駆動フレームワーク、約アイデアあたり 25 分程度を達成します。

ABSTRACT

We present Mind-of-Director, a multi-modal agent-driven framework for film previz that models the collaborative decision-making process of a film production team. Given a creative idea, Mind-of-Director orchestrates multiple specialized agents to produce previz sequences within the game engine. The framework consists of four cooperative modules: Script Development, where agents draft and refine the screenplay iteratively; Virtual Scene Design, which transforms text into semantically aligned 3D environments; Character Behaviour Control, which determines character blocking and motion; and Camera Planning, which optimizes framing, movement, and composition for cinematic camera effects. A real-time visual editing system built in the game engine further enables interactive inspection and synchronized timeline adjustment across scenes, behaviours, and cameras. Extensive experiments and human evaluations show that Mind-of-Director generates high-quality, semantically grounded previz sequences in approximately 25 minutes per idea, demonstrating the effectiveness of agent collaboration for both automated prototyping and human-in-the-loop filmmaking.

研究の動機と目的

  • プレビズのための統合型マルチエージェントシステムを用いた映画製作チームの協調意思決定のモデリング。
  • Unity 内での高レベルアイデアを構造化され編集可能な脚本、3D シーン、キャラクターの動き割り、カメラ計画へ翻訳。
  • クロスモジュールの整合性を高める反復協働機構(Discuss-Revise-Judge および Debate-Judge-Validation)を導入。
  • PrevizFocus マルチモーダルパイプライン評価用の人手注釈ベンチマーク PrevizPro を提供。

提案手法

  • 四モジュールのパイプライン: Script Development, Virtual Scene Design, Character Behaviour Control, and Camera Planning.
  • 2D 指向のアセット取得、シーングラフ、占有グリッドを用いて、視覚的先行情報を持つ意味的に整合した 3D 環境を作成。
  • 二つの協働メカニズム: Script の Discuss-Revise-Judge および Shot の Debate-Judge-Validation により、反復的な精練を実現。
  • キャラクターとカメラの同期タイムライン制御を備えた Unity ベースのリアルタイム可視化で、人の介入監督を可能にする。

実験結果

リサーチクエスチョン

  • RQ1マルチモーダルな AI エージェントのアンサンブルが映画クルーを模倣し、Previz での協調意思決定を可能にするか。
  • RQ2エージェントが脚本と空間的文脈を理解して、整合性があり編集可能な previz シーケンスを生成できるか。
  • RQ3視覚的前提情報と協働ループの統合が、空間的現実感、編集性、映画的整合性にどのような影響を及ぼすか。
  • RQ4提案された協働メカニズムは、モジュール間の一貫性と映画品質を向上させるのにどれほど効果的か。

主な発見

  • Mind-of-Director は各アイデアあたり約 25 分で意味的に根拠のある previz シーケンスを生成する。
  • Virtual Scene Design における視覚的先行情報の統合は、テキスト–シーン整合性(CLIP)を改善し、衝突率を低減(0.83%)させ、Baseline の StageDesigner の 2.27% に対して改善。
  • エージェント協働はブロッギング品質(Loss 0.48 vs 0.86)とモーション精度(88.79%)を向上させ、多様性(0.73)を高める。
  • Debate-Judge-Validation を用いたカメラ計画は、衝突(2.1%)と遮蔽(1.6%)を低減し、精度(79.2%)を solo 手法(例: 64.4% の精度)より高くする。
  • 人間の評価者は、物理的妥当性と脚本整合性の点でエージェント駆動の脚本とレイアウトを好み、空間的整合性と物語的一貫性が向上していることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。