[論文レビュー] Fully Convolutional Mesh Autoencoder using Efficient Spatially Varying Kernels
テンプレート非特有の完全畳み込みメッシュオートエンコーダを導入し、グローバルなウェイト基底と局所係数から学習された空間可変カーネルを用いて、四面体や非多様体メッシュを含む多様なメッシュタイプで最先端の再構成を達成します。
Learning latent representations of registered meshes is useful for many 3D tasks. Techniques have recently shifted to neural mesh autoencoders. Although they demonstrate higher precision than traditional methods, they remain unable to capture fine-grained deformations. Furthermore, these methods can only be applied to a template-specific surface mesh, and is not applicable to more general meshes, like tetrahedrons and non-manifold meshes. While more general graph convolution methods can be employed, they lack performance in reconstruction precision and require higher memory usage. In this paper, we propose a non-template-specific fully convolutional mesh autoencoder for arbitrary registered mesh data. It is enabled by our novel convolution and (un)pooling operators learned with globally shared weights and locally varying coefficients which can efficiently capture the spatially varying contents presented by irregular mesh connections. Our model outperforms state-of-the-art methods on reconstruction accuracy. In addition, the latent codes of our network are fully localized thanks to the fully convolutional structure, and thus have much higher interpolation capability than many traditional 3D mesh generation models.
研究の動機と目的
- 登録済みメッシュ(非多様体メッシュを含む)に対する潜在表現の学習を動機づける。
- UVマッピングやテンプレートテンプレートに依存せず、任意のメッシュに対してテンプレートフリーの完全畳み込みオートエンコーダを開発する。
- 不規則なメッシュの接続に対応しつつ、パラメータをグローバルに共有する効率的な局所的変動畳み込みとプーリング操作を導入する。
提案手法
- 重みが共有基底Bにあり、局所的に変動する係数(AV,i,j)を用いて近傍ごとにサンプリングされる畳み込みおよび転置畳み込みであるvcConvとvcTransConvを定義する。
- 重み基底BをM Basisとして、近傍ごとの重みW_{i,j} = sum_k α_{i,j,k} B_kとし、パラメータを削減する。
- 不規則なサンプリングを考慮してプーリング/アンプーリングのための変動密度ρ'を導入し、ρ'を近傍全体で正規化する。
- 学習可能な密度ρを持つvdPoolとvdUnpoolをMonte Carlo風に用いて特徴量を集約する。
- 残差ブロックをvcConv/vcTransConv + vdDownRes/vdUpResから構築し、全結合層を用いずにダウン/アップサンプリングを可能にする完全畳み込みオートエンコーダを構築する。
- 潜在頂点(例:頭部/胴体/四肢)を配置して局所的な潜在コード補間を可能にし、局所的な潜在特徴を補間する。
実験結果
リサーチクエスチョン
- RQ1テンプレートフリーの完全畳み込みメッシュオートエンコーダは、四面体や非多様体メッシュを含む任意のメッシュトポロジに対して最先端の再構成を達成できるか。
- RQ2グローバルなウェイト基底と局所的に学習された係数を持つ空間可変畳み込みカーネルは、既存のグラフ/畳み込み演算子と比較して優れた再構成品質とメモリ効率を提供するか。
- RQ3モデルは意味的に意味のあるメッシュ領域の局所的潜在コード補間をサポートできるか。
- RQ4異なるプーリング/アンプール戦略とカーネル基底サイズが再構成精度とメモリ使用量に与える影響は何か。
主な発見
| Model | Train (mm) Error | Test (mm) Error | Params (million) | Train Mem (GiB) |
|---|---|---|---|---|
| Ours | 3.73 | 5.01 | 1.9 | 1.1 |
| Neural3DMM | 3.29 | 4.73 | 2.0 | 1.2 |
| 3DMM | 3.73 | 5.01 | 1.9 | 2471Mib |
| MeshCNN | 4.57 | 5.63 | 1.4 | 4183Mib |
| 0. Comparison of Whole Models | 13.25 | 14.29 | 1.4 | 4183Mib |
- 提案されたvcConv/vcTransConvは、グローバルなウェイト基底と局所的な変動係数により、D-FAUSTで最先端の再構成を達成し、四面体および非多様体メッシュへ一般化する。
- モデルはダウン/アップサンプリングと転置畳み込みをサポートしており、静的テンプレートなしにエンドツーエンドの完全畳み込みオートエンコーダを実現する。
- learned densities ρを伴うvdPoolとvdUnpoolは、不規則なメッシュ上でのプーリングの安定性を改善し、単純な最大プーリング/平均プーリングよりも優れている。
- 潜在的な局所補間は、意味的に重要な場所(頭部、四肢、胴体)に潜在頂点を配置して実現でき、ターゲットとなる姿勢/表面編集を可能にする。
- D-FAUST上で、同程度のボトルネックサイズにおいて、Neural3DMMやMeshCNNより訓練誤差とテスト誤差が低くなる;比較表は提案手法の指標が優れていることを示している。
- 本手法は、単純な局所結合層よりもはるかに少ないパラメータで、精度を維持または向上させている。LCConvはパラメータ集約が大きいが、本設定では性能が劣る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。