QUICK REVIEW

[論文レビュー] LRM: Large Reconstruction Model for Single Image to 3D

Yicong Hong, Kai Zhang|arXiv (Cornell University)|Nov 8, 2023

3D Shape Modeling and Analysis被引用数 30

ひとこと要約

LRM は、単一の画像から約五秒で3D NeRFを再構成する最初の大規模トランスフォーマーベースモデルであり、約100万の3D形状とビデオデータを用いて学習し、野外入力に一般化します。

ABSTRACT

We propose the first Large Reconstruction Model (LRM) that predicts the 3D model of an object from a single input image within just 5 seconds. In contrast to many previous methods that are trained on small-scale datasets such as ShapeNet in a category-specific fashion, LRM adopts a highly scalable transformer-based architecture with 500 million learnable parameters to directly predict a neural radiance field (NeRF) from the input image. We train our model in an end-to-end manner on massive multi-view data containing around 1 million objects, including both synthetic renderings from Objaverse and real captures from MVImgNet. This combination of a high-capacity model and large-scale training data empowers our model to be highly generalizable and produce high-quality 3D reconstructions from various testing inputs, including real-world in-the-wild captures and images created by generative models. Video demos and interactable 3D meshes can be found on our LRM project webpage: https://yiconghong.me/LRM.

研究の動機と目的

重い形状ごとの最適化を必要とせず、多様なオブジェクトカテゴリに跨って機能する、汎用的で高速な単一画像からの3D再構成を動機づける。
大規模データと高容量のトランスフォーマを活用して、堅牢な3D事前知識を学習する。
トランスフォーマフレームワーク内で、クロスアテンションと自己アテンションを用いて、2D画像から直接トリプラン NeRF 形式の NeRF を予測する。

提案手法

事前学習済みの DINO ViT エンコーダを用いてパッチ単位の画像特徴を抽出する。
画像からトリプランへ変換するトランスフォーマーデコーダを導入し、クロスアテンションで2D画像特徴を3Dトリプランへ射影し、自己アテンションで精練する。
3Dをトリプラン NeRFで表現: 学習可能な特徴を持つ3つの直交平面（XY, YZ, XZ）を、3D点で照会され、色と密度を出力するMLPでデコードする。
ModLN（適応層正規化）を介してカメラ特徴でトランスフォーマ層を条件付けし、トリプラン特徴生成を誘導する。
新規ビュー間の単純な画像再構成損失（MSE + LPIPS）を用いて、約1Mの3D形状とビデオをエンドツーエンドで訓練する。
推論時には、NVIDIA A100 でトリプラン NeRF から3Dメッシュを5秒未満でレンダリングする。

実験結果

リサーチクエスチョン

RQ1単一の大容量トランスフォーマーモデルは、単一画像から任意のオブジェクトを再構成する汎用的な3D事前知識を学習できるだろうか？
RQ2データ駆動型の多視点監視アプローチは、個別のオブジェクト最適化なしに現実世界および生成入力へどの程度一般化できるか？
RQ32D画像特徴からのクロスアテンションで駆動されるトリプラン NeRF 表現の有効性はどれほどか？
RQ4カメラ条件付けは、単一画像の3D再構成における収束と再構成品質にどのような影響を与えるか？

主な発見

LRM は実世界、生成、レンダリングされた入力に対しても単一画像から高忠実度の3D再構成を達成する。
モデルは、多様なカテゴリの形状を単一の A100 GPU で5秒の推論時間で再構成できる。
LRM は500Mパラメータのトランスフォーマを用いて、2D画像特徴を3Dトリプラン NeRF表現へエンドツーエンド訓練で写像する。
トリプラン NeRF は、高速レンダリングと詳細なジオメトリ/カラー取得に適した、コンパクトで効率的な3D表現を提供する。
約100万の3D形状とビデオでの訓練は、カテゴリ別の事前知識を超えた一般化を可能にする。
LRM は密な点グリッドを照会した後、トリプラン-NeRF から Marching Cubes によってメッシュを抽出できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。