QUICK REVIEW

[論文レビュー] AeroScene: Progressive Scene Synthesis for Aerial Robotics

Nghia Vu, Tuong Do|arXiv (Cornell University)|Mar 24, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

AeroSceneは、ドローンタスクに合わせた進行的な3Dシーン合成のための階層型拡散フレームワークを導入し、 Isaac Simに埋め込まれた物理法則に準拠した多スケール環境を生成し、新しいAeroSceneデータセットで評価します。室内/屋外のシーンレイアウト品質とリアリズムで従来手法を上回ります。

ABSTRACT

Generative models have shown substantial impact across multiple domains, their potential for scene synthesis remains underexplored in robotics. This gap is more evident in drone simulators, where simulation environments still rely heavily on manual efforts, which are time-consuming to create and difficult to scale. In this work, we introduce AeroScene, a hierarchical diffusion model for progressive 3D scene synthesis. Our approach leverages hierarchy-aware tokenization and multi-branch feature extraction to reason across both global layouts and local details, ensuring physical plausibility and semantic consistency. This makes AeroScene particularly suited for generating realistic scenes for aerial robotics tasks such as navigation, landing, and perching. We demonstrate its effectiveness through extensive experiments on our newly collected dataset and a public benchmark, showing that AeroScene significantly outperforms prior methods. Furthermore, we use AeroScene to generate a large-scale dataset of over 1,000 physics-ready, high fidelity 3D scenes that can be directly integrated into NVIDIA Isaac Sim. Finally, we illustrate the utility of these generated environments on downstream drone navigation tasks. Our code and dataset are publicly available at aioz-ai.github.io/AeroScene/

研究の動機と目的

実現可能でスケーラブルな飛行ロボティクス用シーン生成を動機づけ、ナビゲーション、着陸、相互作用タスクを改善する。
グローバルな空域レイアウトを保持しつつ局所ディテールを洗練させるヒエラルキー型・クロススケール拡散モデルを開発する。
タスク認識のガイダンスを組み込み、スケールを跨ぐ物理的妥当性と意味論的一貫性を強制する。
ドローン関連タスクのベンチマーク用に多様な3Dシーンの大規模・Isaac Sim readyデータセットを提供する。
生成シーンをナビゲーションと相互作用実験に適用して下流の有用性を示す。

提案手法

ノイズ除去拡散モデルを用いて粗から細への階層的な方法で妥当な3Dシーンレイアウトを学習する。
シーンを位置・向き・スケール・意味ラベルを持つオブジェクト中心のレイアウトとして表現する。
学習可能なトークナビリティスコアとゲーティング閾値を用いてトークンを粗いグループと細かいグループに分割する。
Cross-scale Progressive Attentionを適用して拡散ステップ全体で粗いグローバル構造と細かい局所ディテールを融合する。
生成を誘導するための3つの differentiable guidance objectives—衝突回避、粗-細一貫性、意味 priorsを統合して生成を導く。
再構成損失とガイド付き損失で訓練し、推論時にはガイダンスを適用してノイズ除去ステップを調整する。

Figure 2: An overview of our AeroScene method.

実験結果

リサーチクエスチョン

RQ1空間的・意味的に一貫する多スケールの3Dシーンレイアウトをどのようにモデル化するか（航空ロボティクスに適した設計）？
RQ2階層拡散とクロススケール注意機構は、ドローンのナビゲーションと相互作用タスクに対して物理的に妥当で有用な環境を生み出せるか？
RQ3タスク認識ガイダンスはレイアウトの妥当性・階層的一貫性・意味的一貫性にどのような影響を与えるか？
RQ4AeroSceneで生成された環境は下流のドローンのナビゲーションと相互作用タスクをどれほどサポートするか？

主な発見

Method	FID ↓	KID ↓	CR % ↓	CFC ↓	SP ↓
ATISS [22]	45.2	0.032	12.5	0.21	3.8
Diffusion-SDF [58]	38.7	0.028	10.1	0.18	3.5
DiffuScene [24]	32.4	0.025	8.3	0.15	3.2
PhyScene [38]	29.8	0.023	7.1	0.13	3.0
Ours	27.3	0.021	6.2	0.12	2.7
3D-FRONT Dataset [37]	ATISS [22]	42.1	0.030	11.8	0.19	3.6
3D-FRONT Dataset [37]	Diffusion-SDF [58]	35.6	0.026	9.4	0.16	3.3
3D-FRONT Dataset [37]	DiffuScene [24]	30.2	0.023	7.6	0.14	3.0
3D-FRONT Dataset [37]	PhyScene [38]	27.9	0.021	6.3	0.12	2.7
3D-FRONT Dataset [37]	Ours	25.8	0.019	5.5	0.11	2.5

AeroSceneは、自データセットのAeroSceneデータセットおよび3D-FRONTベンチマークの両方で、複数の指標（FID、KID、衝突率、粗-細一貫性、意味的妥当性）において最良の定量的性能を達成する。
AeroSceneデータセットでは、我々の手法が FID 27.3、KID 0.021、CR 6.2%、CFC 0.12、SP 2.7 を達成し、ATISS、Diffusion-SDF、DiffuScene、PhySceneを上回る。
アブレーション研究により、衝突回避、粗-細ガイダンス、意味制約のそれぞれが性能に寄与しており、全ガイダンスが最良の結果をもたらす（例：衝突ガイダンスを除くとCRが8.7%に上昇）。
AeroSceneデータセットには1016シーン（812訓練、204テスト）と160,010オブジェクト、シーンあたり平均149オブジェクトを含み、ドローン用の平均着陸エリア54を含む。
生成されたシーンはNVIDIA Isaac Simに直接埋め込み、物理準備が整ったシミュレーションに利用でき、ナビゲーションと相互作用タスクのベンチマークを統合ナビゲーション/相互作用タスクで総合的に91%の成功率を達成する。

Figure 3: Outdoor scene generation visual comparison. The red circle shows the collision or incorrect position.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。