[論文レビュー] 3DILG: Irregular Latent Grids for 3D Generative Modeling
irregular latent grids for neural fields を導入し、スケーラブルで transformer 互換の 3D 形状再構成と確率的生成を実現し、再構成およびさまざまな条件付き生成タスクで最先端の結果を達成します。
We propose a new representation for encoding 3D shapes as neural fields. The representation is designed to be compatible with the transformer architecture and to benefit both shape reconstruction and shape generation. Existing works on neural fields are grid-based representations with latents defined on a regular grid. In contrast, we define latents on irregular grids, enabling our representation to be sparse and adaptive. In the context of shape reconstruction from point clouds, our shape representation built on irregular grids improves upon grid-based methods in terms of reconstruction accuracy. For shape generation, our representation promotes high-quality shape generation using auto-regressive probabilistic models. We show different applications that improve over the current state of the art. First, we show results for probabilistic shape reconstruction from a single higher resolution image. Second, we train a probabilistic model conditioned on very low resolution images. Third, we apply our model to category-conditioned generation. All probabilistic experiments confirm that we are able to generate detailed and high quality shapes to yield the new state of the art in generative 3D shape modeling.
研究の動機と目的
- トランスフォーマーアーキテクチャと互換性があり、再構成と生成の両方をサポートする 3D 形状の潜在表現を動機づける。
- 規則グリッドの制約を回避する、まばらで適応的な不規則潜在グリッドを開発する。
- 点群からの 3D 形状再構成を改善し、複数の条件付けレジームにおいて最先端の確率的 3D 形状生成を実証する。
提案手法
- x_i が 3D 座標、z_i が不規則グリッド上の潜在変数である潜在組 (x_i, z_i) の固定長シーケンスを定義する。
- ミニ PointNet 風の埋め込みで点の近傍のパッチを処理して i 番目のパッチ埋め込み e_i を生成する。
- (e_i, 位置埋め込み p_i) のシーケンスに対してトランスフォーマーを用い、局所潜在 z_i を学習する。
- 中間潜在を自己回帰モデル化のため離散化するために辞書 D を用いたベクトル量子化を任意で適用する。
- 任意のクエリ x に対して Nadarya-Watson 推定器を用いて自動回帰またはカーネルベースで潜在 z_x を補間し、MLP によって占有確率 O(x) をデコードする。
- 座標や他の条件信号に基づいて z_i を生成する自己回帰および双方向トランスフォーマー戦略を提供する。単方向のトークンごと生成またはブロック単位の双方向サンプリングをサポートする。
実験結果
リサーチクエスチョン
- RQ1不規則潜在グリッドは点群からの再構成精度においてグリッドベースの表現と同等または上回ることができるか。
- RQ2不規則潜在グリッドは画像、カテゴリラベル、点群を条件とした高品質な確率的 3D 形状生成を可能にするか。
- RQ3ベクトル量子化は 3DILG の自己回帰生成の品質と扱いやすさにどのように影響するか。
- RQ4固定長の潜在シーケンスとトランスフォーマーベースのモデリングで、複数の条件モダリティ(画像、カテゴリ、点群)をサポートできるか。
主な発見
- 不規則潜在グリッドは ShapeNet-v2 の複数の指標で再構成の競合力や最先端の結果を発揮する。
- 高解像度または低解像度の画像、カテゴリラベル、または点群を条件とした確率的な多サンプル 3D 形状生成をサポートし、表面ディテールが高品質となる。
- ベクトル量子化は再構成/生成の性能をわずかに低下させる可能性があるが、自己回帰モデル化に有益な離散潜在空間を提供する。
- 不規則潜在を用いたカテゴリ条件付き生成は、グリッドベースの 8^3 ベースラインと比較して有利な FID スコアを示し、生成形状のディテールと多様性が改善される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。