QUICK REVIEW

[論文レビュー] PolyGen: An Autoregressive Generative Model of 3D Meshes

Charlie Nash, Yaroslav Ganin|arXiv (Cornell University)|Feb 23, 2020

3D Shape Modeling and Analysis参考文献 29被引用数 65

ひとこと要約

PolyGen は Transformer ベースの頂点モデルとメッシュ・ポインタ・フェイスモデルを用いて、自動回帰的に 3D メッシュを直接モデリングし、条件付きおよび非条件生成で高品質なメッシュを実現します。

ABSTRACT

Polygon meshes are an efficient representation of 3D geometry, and are of central importance in computer graphics, robotics and games development. Existing learning-based approaches have avoided the challenges of working with 3D meshes, instead using alternative object representations that are more compatible with neural architectures and training approaches. We present an approach which models the mesh directly, predicting mesh vertices and faces sequentially using a Transformer-based architecture. Our model can condition on a range of inputs, including object classes, voxels, and images, and because the model is probabilistic it can produce samples that capture uncertainty in ambiguous scenarios. We show that the model is capable of producing high-quality, usable meshes, and establish log-likelihood benchmarks for the mesh-modelling task. We also evaluate the conditional models on surface reconstruction metrics against alternative methods, and demonstrate competitive performance despite not training directly on this task.

研究の動機と目的

3D メッシュの直接的な生成モデリングを、代理表現の代わりに動機づける。
メッシュ向けの自己回帰、2 部構成モデルを提案（頂点生成に続く面生成）。
多様な入力（クラス、画像、ボクセル）で条件付けを可能にし、メッシュ生成の不確実性を定量化する。
対数尤度と予測精度で評価し、ベースラインと代替メッシュ表現と比較する。

提案手法

2 部構成の自己回帰メッシュモデル：頂点モデルは量子化された頂点座標の列を予測し、面モデルは生成された頂点を条件として頂点インデックスの列を予測する。
頂点モデルは離散8ビット量子化座標と停止トークンを持つ Transformer デコーダを使用。
面モデルは Transformer とポインタネットワーク機構を用いて可変長の頂点インデックス列を生成し、正規表現... マスキングで有効な予測を強制。
条件コンテキスト h（クラス、画像、またはボクセル）は、グローバル条件付け用の追加ベクトルまたはエンコーダへのクロスアテンションを介して統合される。
評価時には無効な予測のマスキングを適用; 学習時はマスクなしの尤度最適化を用いる。
データ拡張、ボクセル/画像条件付け、および埋め込みの選択が log-likelihood と精度に及ぼす影響を評価する。

実験結果

リサーチクエスチョン

RQ1直接的なメッシュ生成モデルは後処理なしで高品質で実用的なメッシュを生成できるか？
RQ2Transformer ベースの頂点モデルとポインタベースの面モデルは、メッシュ頂点と面の結合分布をどれだけうまく捉えられるか？
RQ3conditioning inputs（クラス、画像、ボクセル）は頂点/面モデリングの性能にどのような影響を与えるか？
RQ4離散的な頂点表現とデータ拡張はモデリングの効率性と精度にどう影響するか？
RQ5PolyGen は unconditional と conditional のメッシュ生成タスクで Draco や uniform モデルのようなベースラインと比べてどうか？

主な発見

モデル	頂点	面	頂点	面
Uniform	24.08	39.73	0.004	0.002
Valid predictions	21.41	25.79	0.009	0.038
Draco*	Total: 27.68	-	-	-
PolyGen	2.46	1.79	0.851	0.900
- valid predictions	2.47	1.82	0.851	0.900
- discr. embed. (V)	2.56	-	0.844	-
- data augmentation	3.39	2.52	0.803	0.868
+ cross attention (F)	-	1.87	-	0.899

無条件の PolyGen は、頂点精度 85% および面精度 90% で、頂点あたりの対数尤度の最高値 4.26 bits を達成。
離散8ビット頂点埋め込みは bits-per-vertex を 2.56 から 2.46 に改善し、全体の予測性能を向上。
データ拡張は性能を大幅に向上させ、頂点あたりの bits-per-vertex を平均約 1.64 減少させる。
フェイスモデルのクロスアテンションは、彼らの設定で過学習により性能を低下させる。
条件付きモデル（クラス、画像、ボクセル）は頂点モデリングを改善し、ボクセル条件が最も大きな効果をもたらす。一方、フェイス条件付けはほぼまたは負の効果をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。