QUICK REVIEW

[論文レビュー] TANGO: Text-driven Photorealistic and Robust 3D Stylization via Lighting Decomposition

Yongwei Chen, Rui Chen|arXiv (Cornell University)|Oct 20, 2022

Generative Adversarial Networks and Image Synthesis被引用数 33

ひとこと要約

TANGO は SVBRDF、法線変動、照明を、テキストプロンプトに導かれた裸の3Dメッシュに対して学習し、タスク特異データなしでフォトリアルなスタイライズを生成します。 CLIP の監督と球面ガウシアン差分可能レンダラを用いて、スタイルパラメータをレンダリングおよび最適化します。

ABSTRACT

Creation of 3D content by stylization is a promising yet challenging problem in computer vision and graphics research. In this work, we focus on stylizing photorealistic appearance renderings of a given surface mesh of arbitrary topology. Motivated by the recent surge of cross-modal supervision of the Contrastive Language-Image Pre-training (CLIP) model, we propose TANGO, which transfers the appearance style of a given 3D shape according to a text prompt in a photorealistic manner. Technically, we propose to disentangle the appearance style as the spatially varying bidirectional reflectance distribution function, the local geometric variation, and the lighting condition, which are jointly optimized, via supervision of the CLIP loss, by a spherical Gaussians based differentiable renderer. As such, TANGO enables photorealistic 3D style transfer by automatically predicting reflectance effects even for bare, low-quality meshes, without training on a task-specific dataset. Extensive experiments show that TANGO outperforms existing methods of text-driven 3D style transfer in terms of photorealistic quality, consistency of 3D geometry, and robustness when stylizing low-quality meshes. Our codes and results are available at our project webpage https://cyw-3d.github.io/tango/.

研究の動機と目的

テキストプロンプトに導かれた裸のメッシュのフォトリアリスティックな3Dスタイライゼーションを促進する。
スタイルをSVBRDF、局所ジオメトリ（法線マップ）、および照明に分離する。
タスク固有のデータセットを用いず、低品質なメッシュでも堅牢なスタイライゼーションを実現する。
差分可能レンダリングを通じて外観パラメータを監督するために CLIP 損失を活用する。

提案手法

スタイルを空間的に変化するBRDF、局所的な法線変化、照明に分離し、CLIP指向で学習する。
環境照明とBRDFを、表面点ごとにパラメータ化されたニューラルネットワークで表現する。
球面ガウスの差分可能レンダラを用いて画像形成を計算し、閉形式積分を可能にする。
ランダムにサンプリングしたカメラ姿勢から画像をレンダリングし、CLIPでエンコードし、テキスト画像類似度を最大化するようにパラメータを最適化する。
高周波詳細とジオメトリを捉えるためにノーマルオフセットネットワークと位置エンコーディングを組み込む。

実験結果

リサーチクエスチョン

RQ1テキストプロンプトは、SVBRDF、法線変動、照明を共同学習することで、任意の3Dメッシュのフォトリアリスティックなスタイライゼーションを導くことができるか？
RQ2CLIP監督は、品質が異なるメッシュ全体で、レンダリングされたスタイライゼーションをテキスト記述と一致させるのに十分か？
RQ3低品質メッシュにおけるTANGOの性能は、既存のテキスト駆動メッシュスタイライゼーション手法と比べてどうか？
RQ4外観成分を分離することが、レンダリングのリアリズムと幾何学的一貫性に与える影響は何か？

主な発見

Method	Q1（全体）	Q2（内容）	Q3（スタイル）
Text2Mesh	3.30 (±0.75)	3.53 (±0.79)	3.42 (±0.66)
Ours	4.02 (±0.77)	3.98 (±0.74)	3.94 (±0.75)

TANGOは、いくつかのプロンプトでText2Meshよりも高いフォトリアリスティックなレンダリングと3D一貫性を達成します。
メッシュを約5,000ポリゴンにダウンサンプリングしても、スタイライゼーション品質を維持し、堅牢性が保たれます。
分離された SVBRDF、法線マップ、照明は、リアルなハイライト、陰影、およびテクスチャの変化を実現します。
法線予測と SVBRDF/照明予測は、高周波ディテールとジオメトリの変化に決定的に寄与します。
推定環境マップと材料パラメータを変更することで、リライティングとマテリアル編集が可能です。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。