[論文レビュー] Neural Human Video Rendering by Learning Dynamic Textures and Rendering-to-Video Translation
ポーズ依存の微細ディテールをテクスチャ空間から2Dスクリーンスペース埋め込みと分離し、時系列的一貫性のある高忠実度な人間動画を合成する3段階のニューラルパイプライン。TexNetを用いてUV空間で動的テクスチャを生成し、RefNetで最終動画をレンダリング・洗練する。
Synthesizing realistic videos of humans using neural networks has been a popular alternative to the conventional graphics-based rendering pipeline due to its high efficiency. Existing works typically formulate this as an image-to-image translation problem in 2D screen space, which leads to artifacts such as over-smoothing, missing body parts, and temporal instability of fine-scale detail, such as pose-dependent wrinkles in the clothing. In this paper, we propose a novel human video synthesis method that approaches these limiting factors by explicitly disentangling the learning of time-coherent fine-scale details from the embedding of the human in 2D screen space. More specifically, our method relies on the combination of two convolutional neural networks (CNNs). Given the pose information, the first CNN predicts a dynamic texture map that contains time-coherent high-frequency details, and the second CNN conditions the generation of the final video on the temporally coherent output of the first CNN. We demonstrate several applications of our approach, such as human reenactment and novel view synthesis from monocular video, where we show significant improvement over the state of the art both qualitatively and quantitatively.
研究の動機と目的
- 2D画像翻訳アーティファクト(過度な平滑化や時間的安定性の欠如など)を超えた、ニューラル人間動画合成の現実性向上を動機づける。
- テクスチャ空間学習を活用して時間整合的な微細ディテールを2Dポーズ埋め込みから分離する。
- 動的テクスチャを生成しレンダリング出力を洗練する2ネットワーク体系(TexNetとRefNet)を開発する。
- モノクロ/m monocular video からの動作転送、対話的再現、新規視点合成などのアプリケーションを可能にする。
- 衣服と身体外観の空間・時間・幾何学的一貫性を保持するパイプラインを提供する。
提案手法
- テクスチャ空間学習と画像空間の洗練を組み合わせた3段階パイプライン。
- TexNet はUV空間のポーズ依存で時間整合性の高周波テクスチャディテールを学習する。
- 部分的動的テクスチャは、パフォーマンスキャプチャメッシュを用いてモノラル動画フレームからバックプロジェクションされる。
- 2番目のネットワークがテクスチャ付きメッシュを完成させ、整合的なテクスチャ空間合成を生み出す。
- RefNet はレンダリングされたテクスチャベースのメッシュ出力を洗練し、影や前景背景の相互作用を含むフォトリアルな最終動画を生成する。
- 訓練はフレームおよびビデオ損失とフロー整合性を用いたcGANベースの目的関数。
実験結果
リサーチクエスチョン
- RQ1テクスチャ空間のダイナミクスをスクリーン空間の埋め込みから分離することは、ニューラル人間動画合成の時間的一貫性とディテールを改善するか?
- RQ2単眼データからUV空間の動的テクスチャを学習し、ポーズ主導のレンダリングに適用できるか?
- RQ3TexNet + RefNet の2ネットワーク精製は、モーション転送と新規視点合成において従来の2D画像-to-画像翻訳手法を上回るか?
- RQ4部分的法線マップをポーズエンコーディングとして使用することは、テクスチャ合成の品質と安定性にどのような影響を与えるか?
主な発見
- 3段階アプローチは、衣服とともに動くしわなど、時系列的一貫性のある高周波ディテールを生み出す。
- TexNet はUV空間でポーズ依存のテクスチャを生成し、フレームごとの3D再合成なしで正確なディテールを可能にする。
- RefNet は前景/背景を効果的にブレンドし、影を捉え、幾何誤差を修正し、リアリズムを向上させる。
- 本手法はモーション転送、対話的再現、 monocular novel-view synthesis を、最新手法より品質・量的共に改善して実現する。
- テクスチャ空間学習は、2D合成アーティファクト(欠損肢、シルエットエラーなど)を低減する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。