QUICK REVIEW

[論文レビュー] Mind-of-Director: Multi-modal Agent-Driven Film Previsualization via Collaborative Decision-Making

Shufeng Nan, Mengtian Li|arXiv (Cornell University)|Mar 16, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

この論文は、四つのモジュールと反復的なエージェント・ループを通じて、Unity 上で編集可能な映画のプレビズ seq を共同生成する多模態エージェント駆動フレームワーク、約アイデアあたり 25 分程度を達成します。

ABSTRACT

We present Mind-of-Director, a multi-modal agent-driven framework for film previz that models the collaborative decision-making process of a film production team. Given a creative idea, Mind-of-Director orchestrates multiple specialized agents to produce previz sequences within the game engine. The framework consists of four cooperative modules: Script Development, where agents draft and refine the screenplay iteratively; Virtual Scene Design, which transforms text into semantically aligned 3D environments; Character Behaviour Control, which determines character blocking and motion; and Camera Planning, which optimizes framing, movement, and composition for cinematic camera effects. A real-time visual editing system built in the game engine further enables interactive inspection and synchronized timeline adjustment across scenes, behaviours, and cameras. Extensive experiments and human evaluations show that Mind-of-Director generates high-quality, semantically grounded previz sequences in approximately 25 minutes per idea, demonstrating the effectiveness of agent collaboration for both automated prototyping and human-in-the-loop filmmaking.

研究の動機と目的

プレビズのための統合型マルチエージェントシステムを用いた映画製作チームの協調意思決定のモデリング。
Unity 内での高レベルアイデアを構造化され編集可能な脚本、3D シーン、キャラクターの動き割り、カメラ計画へ翻訳。
クロスモジュールの整合性を高める反復協働機構（Discuss-Revise-Judge および Debate-Judge-Validation）を導入。
PrevizFocus マルチモーダルパイプライン評価用の人手注釈ベンチマーク PrevizPro を提供。

提案手法

四モジュールのパイプライン: Script Development, Virtual Scene Design, Character Behaviour Control, and Camera Planning.
2D 指向のアセット取得、シーングラフ、占有グリッドを用いて、視覚的先行情報を持つ意味的に整合した 3D 環境を作成。
二つの協働メカニズム: Script の Discuss-Revise-Judge および Shot の Debate-Judge-Validation により、反復的な精練を実現。
キャラクターとカメラの同期タイムライン制御を備えた Unity ベースのリアルタイム可視化で、人の介入監督を可能にする。

実験結果

リサーチクエスチョン

RQ1マルチモーダルな AI エージェントのアンサンブルが映画クルーを模倣し、Previz での協調意思決定を可能にするか。
RQ2エージェントが脚本と空間的文脈を理解して、整合性があり編集可能な previz シーケンスを生成できるか。
RQ3視覚的前提情報と協働ループの統合が、空間的現実感、編集性、映画的整合性にどのような影響を及ぼすか。
RQ4提案された協働メカニズムは、モジュール間の一貫性と映画品質を向上させるのにどれほど効果的か。

主な発見

Mind-of-Director は各アイデアあたり約 25 分で意味的に根拠のある previz シーケンスを生成する。
Virtual Scene Design における視覚的先行情報の統合は、テキスト–シーン整合性（CLIP）を改善し、衝突率を低減（0.83%）させ、Baseline の StageDesigner の 2.27% に対して改善。
エージェント協働はブロッギング品質（Loss 0.48 vs 0.86）とモーション精度（88.79%）を向上させ、多様性（0.73）を高める。
Debate-Judge-Validation を用いたカメラ計画は、衝突（2.1%）と遮蔽（1.6%）を低減し、精度（79.2%）を solo 手法（例: 64.4% の精度）より高くする。
人間の評価者は、物理的妥当性と脚本整合性の点でエージェント駆動の脚本とレイアウトを好み、空間的整合性と物語的一貫性が向上していることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。