QUICK REVIEW

[論文レビュー] IGNOR: Image-guided Neural Object Rendering

Justus Thies, Michael Zollhöfer|arXiv (Cornell University)|Nov 26, 2018

Advanced Vision and Imaging参考文献 54被引用数 23

ひとこと要約

本稿では、画像ベースレンダリングとディープラーニングを組み合わせることで、正確な視点依存効果を伴う3Dオブジェクトの写真のようにリアルな再レンダリングを生成する自己教師付きニューラルレンダリング手法IGNORを提案する。視覚的効果（例：スペキュラー）を推定・除去するためのシアンプスネットワーク（EffectsNet）を用いることで、拡散反射成分の再投影が可能となり、視点依存効果を再挿入するためのコンポジションネットワーク（CompositionNet）により、歪みのない画像を合成する。この手法により、特にスペキュラー効果の処理において、古典的IBR手法および学習ベース手法を上回る定量的・定性的な性能を達成した。

ABSTRACT

We propose a learned image-guided rendering technique that combines the benefits of image-based rendering and GAN-based image synthesis. The goal of our method is to generate photo-realistic re-renderings of reconstructed objects for virtual and augmented reality applications (e.g., virtual showrooms, virtual tours \& sightseeing, the digital inspection of historical artifacts). A core component of our work is the handling of view-dependent effects. Specifically, we directly train an object-specific deep neural network to synthesize the view-dependent appearance of an object. As input data we are using an RGB video of the object. This video is used to reconstruct a proxy geometry of the object via multi-view stereo. Based on this 3D proxy, the appearance of a captured view can be warped into a new target view as in classical image-based rendering. This warping assumes diffuse surfaces, in case of view-dependent effects, such as specular highlights, it leads to artifacts. To this end, we propose EffectsNet, a deep neural network that predicts view-dependent effects. Based on these estimations, we are able to convert observed images to diffuse images. These diffuse images can be projected into other views. In the target view, our pipeline reinserts the new view-dependent effects. To composite multiple reprojected images to a final output, we learn a composition network that outputs photo-realistic results. Using this image-guided approach, the network does not have to allocate capacity on ``remembering'' object appearance, instead it learns how to combine the appearance of captured images. We demonstrate the effectiveness of our approach both qualitatively and quantitatively on synthetic as well as on real data.

研究の動機と目的

スペキュラーなどの視点依存効果を正確に再現する3Dオブジェクトの写真のようにリアルな新規ビューのレンダリングを実現すること。
不正確な幾何構造や隠蔽境界でのビュー合成に起因するアーチファクトを解消すること。
再投影画像のための微分可能で学習可能なコンポジションネットワークを学習することで、手作業によるブレンドスキームの必要性を排除すること。
高価な監視信号を避けるために、RGBビデオとマルチビューステレオ再構築のみを用いた自己教師付き学習を可能にすること。
時間的整合性と視点依存効果の空間的正確性を保持する高精細な再レンダリングを実現すること。

提案手法

本手法は、オブジェクトのRGBビデオからマルチビューステレオ再構築を用いて粗い3Dプロキシジオメトリを生成する。
EffectsNetは、シアンプス畳み込みニューラルネットワークとして、入力画像から視点依存効果（例：スペキュラー）を予測・除去し、再投影に適した拡散反射画像を生成する。
生成された拡散反射画像は、3Dプロキシジオメトリとカメラパラメータを用いてターゲットビューに再投影され、幾何的整合性が保たれる。
ターゲットビューでは、EffectsNetがターゲット視点に基づいて新たな視点依存効果を予測し、それらを再投影された拡散反射画像に再挿入する。
CompositionNetはエンコーダ・デコーダネットワークとして、K番目の近傍再投影画像をブレンドして最終的な写真のようにリアルな出力画像を生成する。
パイプライン全体は、最終出力と真値ターゲット画像との間のL1損失を最小化することで、自己教師付きに学習される。

実験結果

リサーチクエスチョン

RQ1自己教師付きディープニューラルネットワークは、入力画像から視点依存効果を効果的に分離し、拡散反射の正確な再投影を可能にするか？
RQ2学習されたコンポジションネットワークは、複数の再投影画像を組み合わせる際、従来のブレンドスキームを上回る性能を示すか？
RQ3視点依存効果を明示的にモデリング・再挿入することで、エンドツーエンド学習や古典的IBR手法に比べて視覚的忠実度が向上するか？
RQ4特に視点依存条件が厳しい状況下において、最先端の学習ベースおよび古典的画像ベースレンダリング技術と比較して、本手法はどのように性能を発揮するか？
RQ5明示的な監視なしに、高スペキュラー性を持つ複雑な素材の実世界オブジェクトに対しても、本手法は汎用性を示せるか？

主な発見

本手法は実データにおいて平均二乗誤差（MSE）25.24を達成し、最先端のIBR手法DeepBlending（MSE: 45.07）およびInsideOut（MSE: 51.17）を上回った。
EffectsNetはスペキュラーを効果的に除去・再挿入し、時間的に整合性があり、視覚的に妥当な視点依存効果のアニメーションを実現した。
CompositionNetは再投影誤差を効果的に解消し、隠蔽領域を適切に補完し、ゴースト効果やブレンドアーチファクトのない高精細な出力を生成した。
純粋な学習ベース手法とは異なり、訓練データが少ない場合でも滑らかに劣化する傾向を示し、データ不足下でも安定した性能を発揮した。
本手法はインタラクティブレートで動作する：NVIDIA 1080Ti上でEffectsNetは50 Hz、CompositionNetは10 Hzを達成し、リアルタイムVR/ARアプリケーションに適している。
視覚的比較では、特にクローズアップ領域において、Pix2PixやHedmanらの手法と比較して、よりシャープで正確なスペキュラーと優れた色の整合性を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。