Skip to main content
QUICK REVIEW

[論文レビュー] Deep Lambertian Networks

Yichuan Tang, Ruslan Salakhutdinov|arXiv (Cornell University)|Jun 27, 2012
Advanced Vision and Imaging参考文献 18被引用数 45
ひとこと要約

本稿では、マルチレイヤーの信念ネットワークとラムベール反射モデルを組み合わせることで、2次元画像からアルベド、表面法線、照明を分離する深層生成モデルであるDeep Lambertian Networksを提案する。照射光不変の事前分布を学習することで、転移学習と分離表現を用いた正確なワンショット顔認識が可能となり、標準的なベースラインを上回る性能を発揮する。

ABSTRACT

Visual perception is a challenging problem in part due to illumination variations. A pos-sible solution is to first estimate an illumi-nation invariant representation before using it for recognition. The object albedo and surface normals are examples of such rep-resentations. In this paper, we introduce a multilayer generative model where the latent variables include the albedo, surface normals, and the light source. Combining Deep Be-lief Nets with the Lambertian reflectance as-sumption, our model can learn good priors over the albedo from 2D images. Illumina-tion variations can be explained by changing only the lighting latent variable in our model. By transferring learned knowledge from sim-ilar objects, albedo and surface normals es-timation from a single image is possible in our model. Experiments demonstrate that our model is able to generalize as well as im-prove over standard baselines in one-shot face recognition. 1.

研究の動機と目的

  • 照射光の変動に起因する視覚認識の課題を、照射光不変の表現を学習することで解決すること。
  • 2次元画像からアルベド、表面法線、光源を同時に推定する深層生成モデルの開発。
  • 類似オブジェクト間の知識転送を活用し、分離された潜在表現を用いて1枚の画像からの顔認識を可能にすること。
  • 低データ環境下での一般化性能とベースライン性能の向上。

提案手法

  • モデルは、アルベド、表面法線、照明の潜在変数をモデル化するため、ディープベルーフネットワークに基づくマルチレイヤー生成ネットワークを用いる。
  • 物理的に妥当な画像生成を保証するため、ラムベール反射モデルを事前分布として組み込む。
  • 2次元画像から事前分布を学習するために、潜在変数をエンドツーエンドで訓練するディープベルーフネットワークフレームワークを採用する。
  • 照射光の変動は、照明の潜在変数のみを調整することでモデル化され、照明効果が固有の性質から分離される。
  • 類似オブジェクト間の知識転送により、1枚の画像からのアルベドおよび表面法線の推定が可能となる。
  • 生成学習を活用して、1つの入力画像から分離された要因を推論する。

実験結果

リサーチクエスチョン

  • RQ1ラムベール仮定のもとで、深層生成モデルが2次元画像からアルベド、表面法線、照明を効果的に分離できるか?
  • RQ2類似オブジェクト間の知識転送を活用することで、同様のモデルがワンショット顔認識タスクに十分に一般化できるか?
  • RQ3照射光不変の事前分布を学習することで、標準ベースラインと比較して認識性能が向上するか?
  • RQ4分離された表現を用いることで、1枚の画像からのアルベドおよび表面法線推定はどの程度達成可能か?

主な発見

  • ディープベルーフネットワークフレームワークを用いて、2次元画像から照射光不変のアルベドの事前分布を効果的に学習できた。
  • 照射光の変動は、照明の潜在変数のみを変更することで効果的に説明され、アルベドと法線は保持された。
  • 標準ベースラインと比較して、ワンショット顔認識タスクで優れた性能を発揮した。
  • 類似オブジェクト間の知識転送により、1枚の画像からの正確なアルベドおよび表面法線推定が可能となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。