QUICK REVIEW

[論文レビュー] Self-Supervised Intrinsic Image Decomposition

Michael Jänner, Jiajun Wu|arXiv (Cornell University)|Nov 10, 2017

Advanced Vision and Imaging参考文献 20被引用数 67

ひとこと要約

この論文は Rendered Intrinsics Network (RIN) を提案し、画像を反射率、形状、照明に分解する深い自動エンコーダを用い、学習可能なシェーダと再構成損失でラベルなしデータを活用して内部表現を改善し、未知のカテゴリへ転移させる。

ABSTRACT

Intrinsic decomposition from a single image is a highly challenging task, due to its inherent ambiguity and the scarcity of training data. In contrast to traditional fully supervised learning approaches, in this paper we propose learning intrinsic image decomposition by explaining the input image. Our model, the Rendered Intrinsics Network (RIN), joins together an image decomposition pipeline, which predicts reflectance, shape, and lighting conditions given a single image, with a recombination function, a learned shading model used to recompose the original input based off of intrinsic image predictions. Our network can then use unsupervised reconstruction error as an additional signal to improve its intermediate representations. This allows large-scale unlabeled data to be useful during training, and also enables transferring learned knowledge to images of unseen object categories, lighting conditions, and shapes. Extensive experiments demonstrate that our method performs well on both intrinsic image decomposition and knowledge transfer.

研究の動機と目的

強靭な表現を必要とする挑戦的で制約が少ない問題として intrinsic image decomposition を動機づける。
反射率、形状、照明を分離し、学習済みシェーダを介して入力を再構成する深層構造化オートエンコーダ（RIN）を提案する。
再構成損失を通じてラベルなしデータからの学習を可能にし、中間的 intrinsic 表現を改善する。
地上真の intrinsic 画像なしで、未知の形状・物体・照明分布への学習表現の転移を実証する。
自己監視型転移がカテゴリや条件を跨いでも予測を適応させつつ、シェーダ/微分可能レンダリングを維持できることを示す。

提案手法

反射率、形状、照明用の3つのデコーダを備えた共有エンコーダを持つ Rendered Intrinsics Network (RIN) を導入する。
intrinsic 予測を再構成して入力画像を再現する微分可能なシェーディング関数を組み込む。
intrinsic 画像予測とシェーディングネットワークの2ネットワーク構成を使用し、鋭い出力のためにスキップ接続を含める。
最初は監視付き intrinsic 画像ラベルで学習し、その後再構成損失を用いてラベルなしデータで学習を継続する（自己監視転移）。
転送中にラベル付きデータとラベルなしデータの間の不一致に対応するため、デコーダを独立して更新できるようにする。

実験結果

リサーチクエスチョン

RQ1深層モデルは反射率、形状、照明を同時に予測しつつ入力を正確に再構成できるか。
RQ2微分可能なシェーダと入力再構成を組み込むことで、ラベルなしデータから有用な監督信号を提供できるか。
RQ3自己監視型（再構成ベース）の学習は intrinsic 表現を改善し、地上真の intrinsic 画像なしで新しい形状・照明・物体カテゴリへの転移を可能にできるか。
RQ4RIN は転送タスク全体で、ラベル付きデータとラベルなしデータ間の不一致にどの程度適応できるか。
RQ5転送中に個別のデコーダを更新することが、クロスドメインの状況でどのような影響を及ぼすか。

主な発見

反射率	形状	照明	反射率	形状	照明
0.0021	0.0044	0.1398	0.0042	0.0119	0.4873
0.0059	0.0094	–	0.0054	0.0080	–

RIN は入力再構成を監督信号として用いることで、中間の intrinsic 予測を改善し自己監視転移を可能にする。
未知の物体での形状転移は、自己監督更新後に形状予測が最大で29%改善（試験した形状の平均）を示す。
照明転移は照明予測の顕著な改善を示し、例えば新しい照明分布への適応後の照明MSEが18%減少。
形状間のカテゴリ転移（車と飛行機）ではシェーディング予測が約32%、反射率は約21%の中程度の改善を得られる。
学習済みシェーダは、合成形状のみで訓練していても実世界の物体へ一般化し、シェーダパラメータを固定すると悪化解を防げる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。