[論文レビュー] SerpentFlow: Generative Unpaired Domain Alignment via Shared-Structure Decomposition
SerpentFlowはデータを共有の低周波構造とドメイン固有の高周波成分に分解し、ノイズを注入して疑似ペアを作成し、条件付き生成モデル(Flow Matching経由)を訓練して未ペアドメインを整列させる。合成データ、物理データ、気候ダウンスケーリングタスクで実証。
Domain alignment refers broadly to learning correspondences between data distributions from distinct domains. In this work, we focus on a setting where domains share underlying structural patterns despite differences in their specific realizations. The task is particularly challenging in the absence of paired observations, which removes direct supervision across domains. We introduce a generative framework, called SerpentFlow (SharEd-structuRe decomPosition for gEnerative domaiN adapTation), for unpaired domain alignment. SerpentFlow decomposes data within a latent space into a shared component common to both domains and a domain-specific one. By isolating the shared structure and replacing the domain-specific component with stochastic noise, we construct synthetic training pairs between shared representations and target-domain samples, thereby enabling the use of conditional generative models that are traditionally restricted to paired settings. We apply this approach to super-resolution tasks, where the shared component naturally corresponds to low-frequency content while high-frequency details capture domain-specific variability. The cutoff frequency separating low- and high-frequency components is determined automatically using a classifier-based criterion, ensuring a data-driven and domain-adaptive decomposition. By generating pseudo-pairs that preserve low-frequency structures while injecting stochastic high-frequency realizations, we learn the conditional distribution of the target domain given the shared representation. We implement SerpentFlow using Flow Matching as the generative pipeline, although the framework is compatible with other conditional generative approaches. Experiments on synthetic images, physical process simulations, and a climate downscaling task demonstrate that the method effectively reconstructs high-frequency structures consistent with underlying low-frequency patterns, supporting shared-structure decomposition as an effective strategy for unpaired domain alignment.
研究の動機と目的
- ドメイン間に基盤となる構造が共有されつつも対をなすデータが欠如している場合の未ペアドドメイン整列を動機付ける。
- 共通内容をドメイン特有の変動と分離する共有構造分解を提案する。
- 低周波(共有)と高周波(ドメイン固有)成分を用いる周波数ベースの実現を導入する。
- ドメイン固有の内容を確率的ノイズに置換して疑似ペアを生成し、条件付き生成モデルを訓練する。
- 合成データ、物理データ、気候ダウンスケーリングデータセットで有効性を示す。
提案手法
- 2つのドメインからのサンプルが共有成分とドメイン固有成分に写像される共有潜在空間を導入する。
- データを周波数ベースのフーリエ領域で分解し、データ駆動のカットオフ周波数を用いて共有の低周波内容とドメイン固有の高周波細部を分離する。
- 1つのドメインの高周波内容をノイズで置換して疑似ペアを構築し、これをターゲットドメインへ写像する条件付き生成器を訓練する。
- Flow Matchingを生成バックボーンとして用い、学習した速度場を介して疑似サンプルをターゲット分布へ輸送する。
- 低域フィルタ済み入力でドメインを識別する判別器を訓練して頻度カットオフを自動的に決定し、精度が偶然に近づく点をカットオフとして選択する。
- 推論はソースドメインのサンプルを共有空間に射影し、高周波成分をサンプリングし、学習済みの速度場を組み合わせてターゲットドメイン出力を生成する。
実験結果
リサーチクエスチョン
- RQ1未ペアドドメイン間で意味のある整列を可能にする共有構造(低周波)表現を特定できるか。
- RQ2ドメイン固有内容を確率的な高周波成分で置換することで、ターゲットドメインへの信頼できる条件付き分布を学習できるか。
- RQ3周波数ベースの分解は教師なし超解像や他の未ペアドドメイン適応タスクに有効か。
- RQ4SerpentFlowは高周波内容の再構成と低周波構造の保存という点で、拡散ブリッジやDual FMなどの既存の未ペアドドメイン整列法と比較してどうか。
主な発見
| Method | Digits Classification (↑, h_phi) | Domain Classification (↓, d_psi) | Avg. Accuracy (%) | Avg. Conf (%) | Accuracy (%) |
|---|---|---|---|---|---|
| Dual FM | 35.85 | 85.44 | 0.90 | - | - |
| Diffusion Bridge t*=0.6 | 41.35 | 88.62 | 0.98 | - | - |
| Diffusion Bridge t*=0.5 | 36.78 | 88.71 | 0.97 | - | - |
| Diffusion Bridge t*=0.4 | 30.04 | 88.62 | 0.96 | - | - |
| SerpentFlow w_c=4, inf w_c=4 | 88.63 | 95.42 | 0.50 | - | - |
| SerpentFlow w_c=4, inf w_c=3 | 20.83 | 81.18 | 0.81 | - | - |
| SerpentFlow w_c=3, inf w_c=4 | 75.67 | 91.97 | 0.60 | - | - |
| SerpentFlow w_c=3, inf w_c=3 | 63.22 | 89.19 | 0.53 | - | - |
| SerpentFlow conditional, w_c=4 | 28.90 | 79.38 | 1.00 | - | - |
- SerpentFlowは適切なカットオフ周波数(w_c)を使用した場合、MRBIで digits 分類とドメイン分類の分離性能が向上する。
- w_c = 4 かつ推論時の w_c = 4 では、MRBIにおいて digits 分類精度が 88.63%、ドメイン分類精度が 95.42%に達する。
- 最良のSerpentFlow変種はMRBIでDigits分類およびドメイン区別不能性指標においてDiffusion BridgeおよびDual FMのベースラインより上回る。
- 周波数カットオフの感度があり、不適切または不一致のフィルタリングは性能を低下させる一方、最適な w_c は高周波テクスチャの再構成を著しく改善する。
- 定性的結果は、SerpentFlowが低周波構造を保持しつつ現実的な高周波ディテールを再構成することを示し、いくつかのベースラインとは異なる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。