QUICK REVIEW

[論文レビュー] Stronger Semantic Encoders Can Harm Relighting Performance: Probing Visual Priors via Augmented Latent Intrinsics

Xiaoyan Xing, Xiao Zhang|arXiv (Cornell University)|Feb 1, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

本論文はより強い意味的事前エンコーダが再照明品質を損なう可能性を示し、Augmented Latent Intrinsics（ALI）を導入して密な画素整列 priors と潜在 intrinsic を融合し、難素材での拡散ベースの再照明において最先端を達成する。

ABSTRACT

Image-to-image relighting requires representations that disentangle scene properties from illumination. Recent methods rely on latent intrinsic representations but remain under-constrained and often fail on challenging materials such as metal and glass. A natural hypothesis is that stronger pretrained visual priors should resolve these failures. We find the opposite: features from top-performing semantic encoders often degrade relighting quality, revealing a fundamental trade-off between semantic abstraction and photometric fidelity. We study this trade-off and introduce Augmented Latent Intrinsics (ALI), which balances semantic context and dense photometric structure by fusing features from a pixel-aligned visual encoder into a latent-intrinsic framework, together with a self-supervised refinement strategy to mitigate the scarcity of paired real-world data. Trained only on unlabeled real-world image pairs and paired with a dense, pixel-aligned visual prior, ALI achieves strong improvements in relighting, with the largest gains on complex, specular materials. Project page: https:\\augmented-latent-intrinsics.github.io

研究の動機と目的

視覚表現の探査として再照明を動機づけ、意味的抽象と写真測量忠実度のトレードオフを理解する。
事前学習済み視覚 priors が潜在 intrinsic と融合されたとき、再照明性能に与える影響を調査する。
密な視覚 priors を潜在 intrinsic 表現と組み合わせるAL I を、段階的で自己教師付きの学習パイプラインで開発する。
現実世界のオープンワールドデータセットでALIを評価し、難素材・照明条件への一般化を評価する。

提案手法

Stage I: frozen な視覚エンコーダからの画素整列意味特徴を潜在 intrinsic に射影層を介して注入することにより潜在 intrinsic を拡張。
Stage II: augmented intrinsics に整列させるため拡張表現でデノイジング時に条件付けする拡散型デコーダを微調整。
Stage III: pseudo-relit ペア（Lighting Zoo）による自己研磨を実施し、追加 supervision なしで実世界画像の頑健性を向上させる。
実データ対（MIT MIIW と BigTime）を用いた3段階の訓練と、軽量な融合アダプタおよび進行的な訓練スケジュール。
バックボーン間の比較では MAE および RADIOv2.5 がこのタスクで CLIP/DINO を上回り、画素整列・再構成ベース priors の重要性を強調している。

実験結果

リサーチクエスチョン

RQ1潜在 intrinsic 表現と併用した場合、より強力な意味的 priors は画像再照明を改善するのか、それとも悪化させるのか？
RQ2密な視覚 priors を潜在 intrinsics と融合させると、意味的文脈と写真測光忠実度のバランスをとって信頼できる再照明が可能になるのか？
RQ3拡張・整列・自己研磨という段階的訓練パイプラインが再照明の品質と一般化に与える影響は？
RQ4潜在 intrinsics と組み合わせた場合、どの視覚バックボーンが再照明を最もよく支援するのか？
RQ5ALI は難素材（光沢・鏡面・金属）や野生環境の画像でどのように機能するのか？

主な発見

強力な意味エンコーダは再照明性能を劣化させることが多く、意味的–写真的トレードオフを露呈する。
密で画素整列されたエンコーダ（例：RADIOv2.5）と潜在 intrinsic の組み合わせが、文脈と高精細ディテールをバランスさせることで再照明を改善する。
Stage I の拡張は材質認知型の再照明を改善し、Stage II はデコーダを拡張 intrinsics に合わせて整列させ、Stage III は自己研磨により野外での頑健性を改善する。
ALI は MIIW クロスシーンにおけるオープンソース拡散ベース手法の中で最先端の RMSE/SSIM を達成し、光沢/鏡面材質で顕著な改善を示す。
野外画像ではALI が材質ディテールを保持し、従来手法と比べて指向性照明の転送を改善する。
少数ショットまたは完全な監視は不要で、ALI はラベルなしの現実世界画像対から学習する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。