QUICK REVIEW

[論文レビュー] CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Ruiqi Gao, Aleksander Holynski|arXiv (Cornell University)|May 16, 2024

Simulation Techniques and Applications被引用数 11

ひとこと要約

CAT3D は、限定された入力ビューから多視点拡散モデルを導入し、多くの一貫した新視点を生成します。これにより、少数または単一画像、あるいはテキストプロンプトからのシーンの高速で高品質な3D再構成が可能になります。

ABSTRACT

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .

研究の動機と目的

高品質な3Dシーン作成に必要な入力ビュー数を減らすため、整合性のある新視点を生成する。
生成前提を3D再構成パイプラインから分離して、効率と品質を向上させる。
希薄なビュー、単一画像、またはテキストプロンプトからの堅牢な3D再構成を伴う3D作成を可能にする。

提案手法

入力ビューとカメラ姿勢を条件付けとして複数のターゲットビューを生成する多視点拡散モデルを訓練する。
3D自己注意（時空間）とレイマップカメラ条件付けを用いて、各画像の姿勢を拡散潜在空間にエンコードする。
ターゲット視点をグルーピングし、アンカーおよびその後の視点グループを自己回帰サンプリングして多数のビューを生成する。
視点の一貫性を扱うため、Zip-NeRF に基づく堅牢な3D再構成ステージと、知覚損失（LPIPS）および距離加重ビュー寄与を統合する。
事前訓練済み潜在拡散モデルから微調整し、より多くのターゲットビューに対応するために log(N) に比例したノイズスケジュールシフトを用いる。
最近傍ビュー戦略で条件付けを扱い、正方形で切り抜き・パディングした入力によって広いアスペクト比を管理する。

実験結果

リサーチクエスチョン

RQ1複数の入力ビューの1つ以上を条件として、広範囲で一貫した新視点の集合を生成する多視点拡散モデルは、正確な3D再構成に適した大規模な一貫性のある新視点のセットを生み出せるか。
RQ2生成を3D再構成から切り離すことは、少視・単一画像の3D作成における効率と品質を向上させるか。
RQ3条件付けの選択肢（レイマップ、3D自己注意、条件付けビュー数）は視点の一貫性と最終的な3D品質にどのように影響するか。
RQ4従来法と比較して、 sparse multi-view、few-view、single-image からの 3D タスクにおける CAT3D の性能はどの程度か。
RQ5生成視点からの3D再構成と実写写真の再構成にはどのような制限と失敗モードがあるか。

主な発見

データセット	PSNR (3視点)	SSIM (3視点)	LPIPS (3視点)	PSNR (6視点)	SSIM (6視点)	LPIPS (6視点)	PSNR (9視点)	SSIM (9視点)	LPIPS (9視点)
RealEstate10K	20.77	0.774	0.332	27.34	0.906	0.180	31.56	0.947	0.118
RealEstate10K	19.11	0.675	0.422	22.54	0.744	0.374	23.73	0.766	0.358
RealEstate10K	25.84	0.910	0.144	29.99	0.951	0.103	31.82	0.961	0.092
RealEstate10K	26.78	0.917	0.132	31.07	0.954	0.092	32.20	0.963	0.082
LLFF	17.23	0.574	0.373	20.71	0.764	0.221	23.63	0.830	0.166
LLFF	15.91	0.359	0.512	18.39	0.449	0.438	18.79	0.470	0.416
LLFF	21.34	0.724	0.203	24.25	0.815	0.152	25.21	0.848	0.134
LLFF	21.58	0.731	0.181	24.71	0.833	0.121	25.63	0.860	0.107
DTU	9.18	0.601	0.383	8.84	0.589	0.370	9.23	0.592	0.364
DTU	16.71	0.716	0.223	17.70	0.737	0.205	17.92	0.745	0.200
DTU	20.74	0.875	0.124	23.62	0.904	0.105	24.62	0.921	0.094
DTU	22.02	0.844	0.121	24.28	0.899	0.095	25.92	0.928	0.073
CO3D	14.34	0.496	0.652	14.48	0.497	0.617	14.97	0.514	0.590
CO3D	17.13	0.581	0.566	19.72	0.627	0.515	20.50	0.640	0.500
CO3D	19.59	0.662	0.398	21.84	0.714	0.342	22.95	0.736	0.318
CO3D	20.57	0.666	0.351	22.79	0.726	0.292	23.58	0.752	0.273
Mip-NeRF 360	12.77	0.271	0.705	13.61	0.284	0.663	14.30	0.312	0.633
Mip-NeRF 360	14.44	0.316	0.680	15.51	0.337	0.663	15.99	0.350	0.655
Mip-NeRF 360	15.50	0.358	0.585	16.93	0.401	0.544	18.19	0.432	0.511
Mip-NeRF 360	16.62	0.377	0.515	17.72	0.425	0.482	18.67	0.460	0.460

CAT3D は複数のデータセットにわたるいくつかの少視点3D再構成ベンチマークで最先端の性能を達成した。
CAT3D は生成時間を従来法の数時間から数分へ短縮する。
少視点設定で、RealEstate10K、LLFF、DTU、CO3D、Mip-NeRF 360 のデータセットに対して、PSNR、SSIM、LPIPS の指標で Zip-NeRF、ZeroNVS、ReconFusion を上回る。
単一画像からの3D作成では、CAT3D は CLIP ベースの画像スコアで競争力を保ちつつ、速度面で大幅な利点を提供（おおよそ1分対していくつかのベースラインは最大120分程度）。
アブレーション研究は、3D自己注意、レイマップカメラ条件付け、複数出力を同時モデル化することが、画像品質と3D再構成の双方を改善することを示した。
この手法は、観測領域の幾何を維持しつつ未観測領域で妥当な内容を維持し、従来手法の多くの設定よりも優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。