QUICK REVIEW

[論文レビュー] Latent Generative Models with Tunable Complexity for Compressed Sensing and other Inverse Problems

Sean Gunn, Jorio Cocola|arXiv (Cornell University)|Mar 7, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

論文は拡散モデル、VAE、正規化フローの調整可能な複雑さ priors を提案し、潜在次元性を推論時に調整できるようにすることで、様々なタスクにおける逆問題の再構成を改善します。

ABSTRACT

Generative models have emerged as powerful priors for solving inverse problems. These models typically represent a class of natural signals using a single fixed complexity or dimensionality. This can be limiting: depending on the problem, a fixed complexity may result in high representation error if too small, or overfitting to noise if too large. We develop tunable-complexity priors for diffusion models, normalizing flows, and variational autoencoders, leveraging nested dropout. Across tasks including compressed sensing, inpainting, denoising, and phase retrieval, we show empirically that tunable priors consistently achieve lower reconstruction errors than fixed-complexity baselines. In the linear denoising setting, we provide a theoretical analysis that explicitly characterizes how the optimal tuning parameter depends on noise and model structure. This work demonstrates the potential of tunable-complexity generative priors and motivates both the development of supporting theory and their application across a wide range of inverse problems.

研究の動機と目的

逆問題に適合するために調整可能な潜在的複雑さを持つ生成 priors の利用を動機づける。
複数の潜在次元性を表現できる単一モデルを生産する訓練手順を開発する。
中間的な潜在次元性がタスク間で再構成誤差を低くする empirical 的根拠を示す。
線形デノイジング設定における最適な複雑性選択への理論的洞察を提供する。

提案手法

ネストドロップアウトを用いた潜在次元性共有を伴う、調整可能潜在生成モデル（拡散、VAE、正規化フロー）の単一ファミリを訓練する。
LDMs について、階層的潜在表現を作成するネストドロップアウトと、推論時の実効次元性を制御する切断演算子を導入する。
インバージョン時に潜在空間でデータ整合性ステップを組み込み、前方モデル測定 ${\mathcal A}(\mathcal{D}(z)) = y$ を満たしつつ逆拡散を実行する。
潜在子の切り出しとデノイジング更新を交互に行い、デノイジングとデータ整合性および潜在切り出しを行う一般的なインバージョン・テンプレート（アルゴリズム1および2）を定式化する。
線形生成モデルにおけるデノイジングの理論解析を提供し、モデルの複雑さとノイズの関数として再構成誤差を導出する。

Figure 1 : Medium-complexity priors can outperform both low- and high-complexity alternatives for image reconstruction. We trained three separate generative models with low, medium, and high latent dimensionality. The size of the boxes representing $z$ depicts the latent dimensionality of each model

実験結果

リサーチクエスチョン

RQ1潜在 priors を多重次元性で操作できるようにすることは、固定複雑さ priors と比較して、様々な逆問題で再構成品質を改善するのか。
RQ2ネストドロップアウトは、生成品質を維持しつつ推論時の複雑性制御を可能にする調整可能な潜在拡散モデルを生み出せるか。
RQ3与えられたノイズと測定条件下で再構成誤差を最小化するよう、調整可能なパラメータ（潜在次元性）をどう選択すべきか。
RQ4拡散、VAE、正規化フローのアーキテクチャ間および圧縮感知、塗りつぶし、ノイズ除去、位相復元といったタスク間で、調整可能な priors が一貫した利得を提供するか。
RQ5線形生成モデルのデノイジングにおける最適複雑性について、理論的保証を確立できるか。

主な発見

調整可能な複雑さを持つ priors は、複数の逆問題とアーキテクチャにおいて、固定複雑さのベースラインより一貫して再構成誤差を低減する。
中間的な潜在次元性は、特に低測定比で過少適合とノイズ過適合の最良トレードオフを提供することが多い。
複数の潜在次元性にまたがって訓練された単一モデルは、再訓練なしで推論時に効果的に調整できる。
線形デノイジングでは、再構成誤差の明示的表現を導出し、最適な複雑性がノイズの増加とともに低下することを実証する。
DPS、LDPS/PSLD などの最先端ベースラインを改善または同等にし、これらベースラインの調整可能版も強化する。
CelebA、CelebA-HQ、MS COCO、FFHQ に対する実証結果は、調整可能な priors を用いることで PSNR および LPIPS の改善を示し、FID スコアも競争力を維持する。

Figure 2 : Intermediate latent dimensionalities yield the best reconstruction at low measurement ratios. We train separate injective flow models for each latent dimensionality $k$ , ranging from $16$ to $456$ , on MNIST images of size $n=32\times 32=1024$ pixels. No parameter sharing is used across

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。