Skip to main content
QUICK REVIEW

[論文レビュー] Learning A Physical-aware Diffusion Model Based on Transformer for Underwater Image Enhancement

Chen Zhao, Chenyu Dong|arXiv (Cornell University)|Mar 3, 2024
Underwater Acoustics Research被引用数 10
ひとこと要約

PA-Diff は、海中画像強調のための物理ガイド付き拡散フレームワークを導入し、物理プリオリ生成ブランチと物理を意識した拡散トランスフォーマーを組み合わせて、海中撮影の物理と拡散モデリングを活用します。

ABSTRACT

Underwater visuals undergo various complex degradations, inevitably influencing the efficiency of underwater vision tasks. Recently, diffusion models were employed to underwater image enhancement (UIE) tasks, and gained SOTA performance. However, these methods fail to consider the physical properties and underwater imaging mechanisms in the diffusion process, limiting information completion capacity of diffusion models. In this paper, we introduce a novel UIE framework, named PA-Diff, designed to exploiting the knowledge of physics to guide the diffusion process. PA-Diff consists of Physics Prior Generation (PPG) Branch, Implicit Neural Reconstruction (INR) Branch, and Physics-aware Diffusion Transformer (PDT) Branch. Our designed PPG branch aims to produce the prior knowledge of physics. With utilizing the physics prior knowledge to guide the diffusion process, PDT branch can obtain underwater-aware ability and model the complex distribution in real-world underwater scenes. INR Branch can learn robust feature representations from diverse underwater image via implicit neural representation, which reduces the difficulty of restoration for PDT branch. Extensive experiments prove that our method achieves best performance on UIE tasks.

研究の動機と目的

  • 拡散モデルに海中の物理的撮像機構を組み込むことで、UIE の改善を動機づける。
  • 物理 priors を拡散ベースの復元と結合するデュアルブランチ構造を提案する。
  • 物理を意識したトランスフォーマーを通じて長距離依存性のモデリングと領域認識強調を可能にする。
  • 寄与を検証するアブレーションとともに、実世界の海中データセットで最先端性能を実証する。

提案手法

  • 2ブランチの PA-Diff アーキテクチャ:Physics Prior Generation (PPG) ブランチと Physics-aware Diffusion Transformer (PDT) ブランチ。
  • PPG は修正された Koschmieder の光走査モデルを用いて透過マップと全体背景光を生成する。物理 priors は再構成損失を介して拡散を導く。
  • PDT は水中入力と物理 priors に条件付けられた拡散過程(DDPM フレームワーク)を使用する。Physics-aware Self-Attention (PA-SA) と Multi-Scale Dynamic FFN (MS-FFN) を含む。
  • PA-SA は透過と光の priors で特徴を調整し、長距離拡散モデリングのための透過対応特徴と光対応特徴を生成する。
  • MS-FFN はマルチスケールの深さ方向畳み込みを用いて受容野を拡張し局所特徴を集約する。
  • 訓練は、条件付き拡散過程における推定ノイズを真ノイズに一致させる拡散損失を最適化する。

実験結果

リサーチクエスチョン

  • RQ1物理的な海中撮像知識を、拡散ベースの UIE フレームワークにどう統合できるか?
  • RQ2透過マップと背景光 priors を組み込むことで、海中画像の拡散ベース復元は改善されるか?
  • RQ3物理を意識した注意機構を持つトランスフォーマー型拡散モジュールは、水中シーンの長距離依存性をより良くモデルできるか?
  • RQ4各物理由来コンポーネント(透過マップ、背景光、MS-FFN)が UIE の性能に与える寄与は何か?

主な発見

DatasetFID ↓LPIPS ↓PSNR ↑SSIM ↑
UIEBD (Ours)28.760.132421.140.8620
LSUI (Ours)22.150.092325.890.9354
  • PA-Diff は UIE ベンチマーク(UIEBD および LSUI)において、知覚と忠実度の最先端指標を達成する。
  • アブレーション研究は、透過 priors (T) が背景光 (B) のみよりも大きな改善をもたらすこと、MS-FFN と PA-SA を組み合わせた両方の完全統合が最良の性能を発することを示す。
  • LSUI では、提案手法がいくつかのベースラインと比較して FID を低く、SSIM を高くして PSA の改善を達成する。
  • 生成された物理 priors が有益であることを示す一方で、正確な priors の精度が最終的な向上に影響を与えることを示唆しており、物理 priors 推定の改善余地がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。