Skip to main content
QUICK REVIEW

[論文レビュー] From data to functa: Your data point is a function and you can treat it like one

Emilien Dupont, Hyunjik Kim|arXiv (Cornell University)|Jan 28, 2022
3D Shape Modeling and Analysis被引用数 23
ひとこと要約

論文は、データ点を小さな変調でパラメータ化された暗黙的ニューラル表現(INR)として扱うフレームワーク functa を提案し、さまざまなモダリティ(画像、ボクセル、NeRF、流形)上で関数上のスケーラブルな深層学習を可能にする。大規模な functaset データセットを作るためのメタ学習パイプラインを備える。

ABSTRACT

It is common practice in deep learning to represent a measurement of the world on a discrete grid, e.g. a 2D grid of pixels. However, the underlying signal represented by these measurements is often continuous, e.g. the scene depicted in an image. A powerful continuous alternative is then to represent these measurements using an implicit neural representation, a neural function trained to output the appropriate measurement value for any input spatial location. In this paper, we take this idea to its next level: what would it take to perform deep learning on these functions instead, treating them as data? In this context we refer to the data as functa, and propose a framework for deep learning on functa. This view presents a number of challenges around efficient conversion from data to functa, compact representation of functa, and effectively solving downstream tasks on functa. We outline a recipe to overcome these challenges and apply it to a wide range of data modalities including images, 3D shapes, neural radiance fields (NeRF) and data on manifolds. We demonstrate that this approach has various compelling properties across data modalities, in particular on the canonical tasks of generative modeling, data imputation, novel view synthesis and classification. Code: https://github.com/deepmind/functa

研究の動機と目的

  • 信号を離散的な配列の代わりに暗黙的ニューラル表現(INR)として連続関数で表現することを動機づける。
  • functa を INR のデータセットとして導入し、データから関数への変換を下流タスクから切り離す。
  • モジュレーションとメタ学習を用いて、モダリティ横断で大規模な functa データセットを作成するスケーラブルな方法を提案する。
  • functa 上での下流タスクを実証する,生成モデル化、データ欠損補完、新視点合成、分類を含む。

提案手法

  • 各データ点を INR f_theta として表現し、座標と特徴に対する平均二乗誤差を最小化するように訓練する(式 1)。
  • INR を共有ベースネットワーク(SIREN)に適用する低次元のモジュレーション(シフト変調と潜在変調)を介してパラメータ化し、functa を得る。
  • メタ学習(MAML/CAVIA 風)を用いてベースネットワークの初期化を学習し、その後データ点ごとのモジュレーションを数ステップの勾配で適合させ、巨大な functa データセットを作成する。
  • 下流モデルをモジュレーションベクトル上で直接訓練し、生成タスクには正規化フローと拡散モデルを、分類には単純な MLP を用いる。
  • 学習されたモジュレーション事前分布と再構成損失を組み合わせた MAP 推定を欠損補完と新視点合成に適用する(式 2)。
  • 画像(CelebA-HQ 64×64)、ボクセル(ShapeNet 64^3)、NeRF シーン(SRN Cars)、流形データ(ERA5 温度)でモーダリティ横断的に実証する。

実験結果

リサーチクエスチョン

  • RQ1多様なモダリティにわたるデータ点をINRとして効果的に表現し、コンパクトなモジュレーション(functa)として格納できるか。
  • RQ2データから functa への作成を下流学習と分離することで、モダリティ横断でスケーラブルな生成モデル、欠損補完、視点合成、分類を可能にするか。
  • RQ3モジュレーションベースの表現と完全な INR パラメータとの間で、再構成性、スケーラビリティ、下流タスクの性能のトレードオフはどのようになるか。
  • RQ4メタ学習は functa の迅速な適合をどのように促進し、大規模データセットにおける限界は何か。

主な発見

Dataset/Array sizeSplitModulation dimensionality641282565121024
ShapeNet Chairs, 64^3Test6499.1199.2899.3899.4699.51
ShapeNet Chairs, 64^3Train6499.4399.4999.4999.5199.53
ShapeNet 10 Classes, 64^3Train6499.3699.4499.4799.5299.56
ShapeNet 10 Classes, 64^3Test6499.3099.4099.4499.5099.55
CelebA-HQ, 64×64Test6421.623.525.628.030.7
CelebA-HQ, 64×64Train6424.324.224.624.624.4
SRN Cars, 128×128Test6422.423.023.123.223.1
SRN Cars, 128×128Train6443.243.743.844.044.1
ERA5, 181×360Test6443.243.643.843.944.0
  • functa は解像度が高い場合でも離散配列よりもスケールが穏やかで、解像度の高いデータや可変形状データの効率的な処理を実現する。
  • 256–512 次元のモジュレーションは、配列表現よりもはるかに小さいながら視覚的に近い再構成を提供する。
  • ベースネットワークのメタ学習とデータ点ごとのモジュレーションの少数ステップ適合により、画像、ボクセル、NeRF、流形全般で正確な functa を得られる。
  • モジュレータを用いた生成モデル(正規化フローと拡散法)でモーダリティ横断的に一貫したサンプルを生成できる。NeRF 的なシーンは先行知識を用いた推論でモジュレーションから推定・補間できる。
  • ボクセルデータに対する同等の 3D CNN よりもはるかに少ないパラメータで、モジュレーション上の分類が競争力のある精度を達成する(例:ShapeNet 10 Classes:93.6% 対 93.3%、パラメータ数 83k 対 550k)。
  • このフレームワークは、モジュレーション事前分布と再構成損失を最適化することで、欠損補完や新視点合成といった柔軟な下流タスクを可能にする(MAP 推定)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。