[論文レビュー] DIAMOND: Directed Inference for Artifact Mitigation in Flow Matching Models
DIAMOND は、流れの整合と拡散モデルのアーティファクトを推定されたクリーンな潜在変数と勾配ベースの軌道補正で修正する、トレーニング不要な推論時手法です。
Despite impressive results from recent text-to-image models like FLUX, visual and anatomical artifacts remain a significant hurdle for practical and professional use. Existing methods for artifact reduction, typically work in a post-hoc manner, consequently failing to intervene effectively during the core image formation process. Notably, current techniques require problematic and invasive modifications to the model weights, or depend on a computationally expensive and time-consuming process of regional refinement. To address these limitations, we propose DIAMOND, a training-free method that applies trajectory correction to mitigate artifacts during inference. By reconstructing an estimate of the clean sample at every step of the generative trajectory, DIAMOND actively steers the generation process away from latent states that lead to artifacts. Furthermore, we extend the proposed method to standard Diffusion Models, demonstrating that DIAMOND provides a robust, zero-shot path to high-fidelity, artifact-free image synthesis without the need for additional training or weight modifications in modern generative architectures. Code is available at https://gmum.github.io/DIAMOND/
研究の動機と目的
- 高価なファインチューニングなしで実用的なアーティファクト低減を画像合成時に動機づける。
- 生成中にオンザフライでアーティファクトを検出・修正するトレーニング不要のパイプラインを開発する。
- プロンプト忠実度を保ちながらアーティファクトを減らすための領域レベルの正確なガイダンスを可能にする。
提案手法
- 中間潜在から予測 Velociy v_theta(Flow Matching)またはノイズ予測(Diffusion)を用いて hat{x}_{0,t} というクリーン潜在推定値を計算する。
- hat{x}_{0,t} をデコードして画像を得、微分可能な Artifact Detector を適用してアーティファクトマスク M^t を得る。
- アーティファクト損失 L_a をピクセルごとのアーティファクト確率の平均として定義し、x_t に関する勾配を計算する。
- 勾配を正規化し、時間依存の lambda_t でスケーリングした delta_t の軌道補正を適用してアーティファクトから逸れる方向へ導く。
- パワーに基づくスケジュール lambda_t を用いて、初期により強い補正を適用し後半で減衰させる。
- x_{t-1} の更新に delta_t を組み込み、Flow-based 形式と類似した拡散モデルへの一般化を行う。

実験結果
リサーチクエスチョン
- RQ1アーティファクトなしの画像合成をモデルの再訓練やファインチューニングなしで達成できるか。
- RQ2微分可能なアーティファクト検出器に基づくオンザフライの軌道補正がプロンプト忠実度を保ちながらアーティファクトを低減するか。
- RQ3拡散モデルと Rectified Flow の異なるベースモデル、データセットでアーティファクトガイド付きサンプリングがどのように機能するか。
- RQ4勾配正規化と正則化項がアーティファクト低減とアイデンティティ保持に及ぼす影響はどの程度か。
- RQ5どのアーティファクト検出器がアーティファクト低減と画像品質のトレードオフで最良か。
主な発見
| Model | CLIP-T ↑ | Mean Artifact Freq (%) ↓ | ImageReward ↑ | Artifact Pixel Ratio (%) ↓ | MAE ↓ | MAE (A) ↓ | MAE (NA) ↓ | |
|---|---|---|---|---|---|---|---|---|
| FLUX.2 [dev] | 39.532 ± 0.157 | 100.000 ± 0.000 | 1.354 ± 0.082 | 0.325 ± 0.048 | - | - | - | |
| + DIAMOND | 39.598 ± 0.282 | 30.772 ± 4.772 | 1.343 ± 0.051 | 0.074 ± 0.021 | 9.402 ± 0.459 | 31.241 ± 4.250 | 9.319 ± 0.540 | |
| FLUX.1 [dev] | 36.443 ± 0.095 | 100.000 ± 0.000 | 0.790 ± 0.035 | 0.152 ± 0.011 | - | - | - | |
| + DiffDoctor | 36.418 ± 0.256 | 46.970 ± 6.313 | 0.744 ± 0.038 | 0.065 ± 0.014 | 11.469 ± 0.695 | 35.787 ± 1.093 | 11.435 ± 0.691 | |
| + HPSv2 | 35.689 ± 0.399 | 56.823 ± 6.192 | 0.698 ± 0.081 | 0.093 ± 0.017 | 23.751 ± 0.289 | 45.050 ± 4.156 | 23.721 ± 0.284 | |
| + DIAMOND | 36.151 ± 0.197 | 9.848 ± 2.901 | 0.819 ± 0.065 | 0.009 ± 0.002 | 8.744 ± 0.097 | 36.064 ± 2.001 | 8.707 ± 0.099 | |
| FLUX.1 [schnell] | 37.377 ± 0.237 | 100.000 ± 0.000 | 1.175 ± 0.026 | 0.812 ± 0.070 | - | - | - | |
| + DiffDoctor | 37.448 ± 0.240 | 65.250 ± 4.500 | 1.158 ± 0.027 | 0.271 ± 0.051 | 12.856 ± 0.119 | 27.014 ± 1.243 | 12.755 ± 0.116 | |
| + HPSv2 | 37.552 ± 0.204 | 91.750 ± 0.957 | 1.170 ± 0.022 | 0.765 ± 0.066 | 15.605 ± 0.042 | 31.162 ± 1.365 | 15.498 ± 0.041 | |
| + DIAMOND | 37.324 ± 0.124 | 32.250 ± 0.957 | 1.162 ± 0.026 | 0.103 ± 0.042 | 5.135 ± 0.049 | 21.217 ± 0.945 | 5.026 ± 0.051 | |
| Stable Diffusion XL | + HandsXL | 38.061 ± 0.128 | 79.845 ± 2.262 | 1.092 ± 0.043 | 0.618 ± 0.050 | 26.168 ± 0.788 | 37.102 ± 1.160 | 26.119 ± 0.781 |
| + DIAMOND | 38.503 ± 0.139 | 66.328 ± 3.634 | 1.158 ± 0.045 | 0.303 ± 0.050 | 7.951 ± 0.241 | 18.151 ± 0.409 | 7.906 ± 0.236 |
- DIAMOND は基準レベルからアーティファクトの頻度を劇的に低減(例: モデルとデータセットに応じて約100%から約9–31%程度へ)。
- DIAMOND はモデル間でアーティファクトピクセル比を低下させ、アーティファクトの局所的抑制を示す。
- DIAMOND はアーティファクト低減と base-model のアイデンティティ保持を前提に、知覚品質指標(CLIP-T、ImageReward)をやや改善または維持する。必要に応じて L_rec 正則化。
- 勾配正規化は軌道補正を安定化させ、アーティファクトの抑制を高める。
- DIAMOND は Flow Matching(例: FLUX)と Diffusion モデル(例: SDXL)の両方へ一般化し、DiffDoctor、HandsXL、HPSv2 などと比較してアーティファクト低減で優れる。
- アーティファクト検出器の選択(DiffDoctor 対 RichHF*)は全体の画像品質に実質的な影響を与え、DiffDoctor の方が CLIP-T と ImageReward のスコアが良い。
![Figure 13 : Images for the FLUX.1 [dev] on the people dataset using DIAMOND for 10 inference steps. In this type of flow matching model, we can direct the trajectory by correcting large artifacts, such as improving the body shape (see the image with the wizards), and smaller ones (correcting the han](https://ar5iv.labs.arxiv.org/html/2602.00883/assets/images/137.jpg)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。