[論文レビュー] Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image
Unique3D は、マルチビュー拡散、 progressive upscaling、および ISOMER メッシュ再構成を用いた単一画像からの高忠実度3Dメッシュパイプラインを提案し、速く高品質なテクスチャ付きメッシュを実現します。
In this work, we introduce Unique3D, a novel image-to-3D framework for efficiently generating high-quality 3D meshes from single-view images, featuring state-of-the-art generation fidelity and strong generalizability. Previous methods based on Score Distillation Sampling (SDS) can produce diversified 3D results by distilling 3D knowledge from large 2D diffusion models, but they usually suffer from long per-case optimization time with inconsistent issues. Recent works address the problem and generate better 3D results either by finetuning a multi-view diffusion model or training a fast feed-forward model. However, they still lack intricate textures and complex geometries due to inconsistency and limited generated resolution. To simultaneously achieve high fidelity, consistency, and efficiency in single image-to-3D, we propose a novel framework Unique3D that includes a multi-view diffusion model with a corresponding normal diffusion model to generate multi-view images with their normal maps, a multi-level upscale process to progressively improve the resolution of generated orthographic multi-views, as well as an instant and consistent mesh reconstruction algorithm called ISOMER, which fully integrates the color and geometric priors into mesh results. Extensive experiments demonstrate that our Unique3D significantly outperforms other image-to-3D baselines in terms of geometric and textural details.
研究の動機と目的
- 単一画像から高品質な3Dメッシュの効率的生成を促進する。
- 高忠実度、テクスチャのディテール、幾何学的正確性を強い汎用性とともに達成する。
- 拡散ベースのマルチビュー合成、法線マップ、および高速メッシュ再構築を組み合わせたエンドツーエンドのパイプラインを開発する。
- 野外の単一ビュー画像での実用的な効率性(≤30 秒)を実証する。
提案手法
- マルチビュー拡散モデルと法線拡散モデルを用いて、4つの直交マルチビュー画像とそれぞれの法線マップを生成する。
- ControlNet ベースのリファインメントと超解像ステップを用いて、マルチビューRGB画像と対応する法線マップを高解像度(2048)へ段階的にアップスケールする。
- カラーおよび几何学的事前知識をRGBと法線マップから統合し、ISOMER(Instant and Consistent Mesh Reconstruction)という即時かつ一貫したメッシュ再構築アルゴリズムで高品質なメッシュを再構築する。
- ISOMER には次の要素が含まれる。 (a) 正面/背面ビューからの初期メッシュ推定、(b) 微分可能レンダリングと画像ベース損失を用いた粗末からの最適化、(c) マルチビューの一貫性とテクスチャ/カラーの精細化を扱う明示的最適化ターゲット。
実験結果
リサーチクエスチョン
- RQ1単一画像からの3Dメッシュパイプラインは、マルチビューの一貫性を維持しつつ、ハイファイテクスチャと複雑なジオメトリを実現できるか?
- RQ2ISOMER のようなメッシュベース再構築を組み込むことで、単一視 supervision の下で体素/Implicit法と比較してディテールとロバスト性が向上するか?
- RQ3マルチレベルアップスケーリング戦略は、計算コストを過度に増やすことなく高解像度テクスチャと正確な法線を達成するのに有効か?
主な発見
| Method | PSNR↑ | SSIM↑ | LPIPS↓ | Clip-Sim↑ | CD↓ | Vol. IoU↑ | F-Score↑ |
|---|---|---|---|---|---|---|---|
| One-2-3-45 [50] | 13.19 | 0.7231 | 0.3795 | 0.7792 | 0.0246 | 0.4647 | 0.6025 |
| OpenLRM [ 2 ] | 14.73 | 0.7722 | 0.3294 | 0.8607 | 0.0229 | 0.4452 | 0.5907 |
| SyncDreamer [ 21 ] | 13.13 | 0.7262 | 0.4036 | 0.7828 | 0.0207 | 0.4220 | 0.5689 |
| Wonder3D [ 3 ] | 15.66 | 0.7898 | 0.3006 | 0.8612 | 0.0184 | 0.5199 | 0.6513 |
| InstantMesh [ 5 ] | 15.30 | 0.7809 | 0.3028 | 0.8998 | 0.0164 | 0.5141 | 0.6421 |
| GRM [ 23 ] | 14.50 | 0.7676 | 0.3332 | 0.8820 | 0.0161 | 0.4768 | 0.6178 |
| CRM [ 4 ] | 16.45 | 0.7965 | 0.2750 | 0.8936 | 0.0156 | 0.5379 | 0.6697 |
| Ours | 16.48 | 0.8007 | 0.2624 | 0.9096 | 0.0145 | 0.5538 | 0.6845 |
- Unique3D は実験で既存のimage-to-3Dベースラインよりも幾何学的およびテクスチャ的ディテールを大幅に向上させる。
- ISOMER は、RTX4090 上でエンドツーエンドの入力からメッシュまでの時間を30秒未満で実現するなど、短時間で高品質なメッシュ再構築を可能にする。
- 再構築プロセス ISOMER は10秒未満で動作し、全体のパイプラインは単一画像から3Dへの高速化を実現する。
- GSO ベースの評価で、Our は PSNR、SSIM、LPIPS、Clip-Sim、CD、Vol. IoU、F-Score の各指標でベースラインと比較して最高またはほぼ最高の成績を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。