QUICK REVIEW

[論文レビュー] Deep Learning on Implicit Neural Representations of Shapes

Luca De Luigi, Adriano Cardace|arXiv (Cornell University)|Feb 10, 2023

Advanced Vision and Imaging被引用数 8

ひとこと要約

この論文は、個々のImplicit Neural Representations (INRs)をコンパクトな埋め込みにマッピングするエンコーダであるinr2vecを紹介し、再構成された表面を再現することなく、分類、検索、セグメンテーション、生成、異種領域間マッピングといった下流タスクを可能にする。

ABSTRACT

Implicit Neural Representations (INRs) have emerged in the last few years as a powerful tool to encode continuously a variety of different signals like images, videos, audio and 3D shapes. When applied to 3D shapes, INRs allow to overcome the fragmentation and shortcomings of the popular discrete representations used so far. Yet, considering that INRs consist in neural networks, it is not clear whether and how it may be possible to feed them into deep learning pipelines aimed at solving a downstream task. In this paper, we put forward this research problem and propose inr2vec, a framework that can compute a compact latent representation for an input INR in a single inference pass. We verify that inr2vec can embed effectively the 3D shapes represented by the input INRs and show how the produced embeddings can be fed into deep learning pipelines to solve several tasks by processing exclusively INRs.

研究の動機と目的

INRとして格納された3D形状を直接処理する動機づけを提示し、離散表現への再構成を回避する。
INRの重みだけから形状情報を保持する、コンパクトでタスク非依存のINRエンコーダを開発する。
エンコーダ埋め込みのみを用いて、下流タスク（分類、検索、セグメンテーション、生成）を実証する。
埋め込みが異なるINR信号間での補間やモーダル間マッピングを可能にすることを示す。

提案手法

INR（MLPの重み）をその層ごとの重み行列を1つの入力行列Pに積み重ねて表現し、バッチ正規化とReLU活性化を持つ単純な線形エンコーダに入力する。
エンコーダの埋め込みを条件として、空間内の点をクエリし関数値（udf、sdf、occ）を回帰することでINRの基礎となる3D信号を再構成する隐性デコーダを訓練する。
エンコーダを凍結してエンドツーエンド学習を行い、標準的な下流ネットワークに適した埋め込みを提供する。
点群、メッシュ、ボクセルといった異なる離散表現のINRを共通の潜在空間に埋め込み、統一的な処理パイプラインを実現する。
INR埋め込み上のLatent-GANを用いて新しい形状埋め込みを生成し、それが離散形状へデコードされることを示す。
あるINRドメインから別のINRドメインへ埋め込みを写像する転送関数ネットワークを検討する（例：不完全な点群から完全な点群、点群からメッシュへ）。

実験結果

リサーチクエスチョン

RQ1INRの重みから直接学習されたコンパクトな埋め込みが下流タスクの形状情報を preserving できるか？
RQ2点群、メッシュ、ボクセルといった多様な3D表現に対して、INR埋め込みは標準的な深層学習パイプラインに適用可能か？
RQ3INR埋め込みは明示的な表面再構成なしに、検索、分類、セグメンテーション、生成、クロスドメインマッピングといったタスクをサポートできるか？
RQ4学習された潜在空間は未知のINR間で補間できるほど滑らかで、クロスモダリティマッピングを実現できるか？
RQ5異なるINRモダリティ間、または完了/再構成タスク間で埋め込みを写像する単純な転送関数が機能するか？

主な発見

inr2vec埋め込みは、モダリティ間で共通のパイプラインを用いながら、特化型エンコーダと比較して点群検索の性能を競合レベルに引き上げる。
INR埋め込みでの分類は、ポイント、メッシュ、ボクセルそれぞれについて、モダリティ特化のベースラインに近い精度を、単純な全結合分類器で達成する。
エンコーダとともに訓練された軽量デコーダは埋め込みから形状を再構成でき、潜在空間の補間は一貫した中間ジオメトリを生み出す。
INR由来の埋め込みによる部品セグメンテーションは、専用アーキテクチャの性能に近づき、局所的な識別能力を示す。
INR埋め込み上で訓練されたLatent-GANは、点群やメッシュへデコードされる多様な形状を生成でき、点群には解像度に依存しない生成を実現する。
転送関数ネットワークは、不完全・完全な形状間、または点群とメッシュ間で埋め込みを写像し、一貫した再構成を生み出す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。