[論文レビュー] DeSRA: Detect and Delete the Artifacts of GAN-based Real-World Super-Resolution Models
DeSRAは、MSE-SRとGAN-SRの結果間の局所的分散距離を用いて現実世界のGAN-SR出力におけるGAN推論アーティファクトを検出し、擬似地上真実で微調整して、最小データでアーティファクトを除去します。
Image super-resolution (SR) with generative adversarial networks (GAN) has achieved great success in restoring realistic details. However, it is notorious that GAN-based SR models will inevitably produce unpleasant and undesirable artifacts, especially in practical scenarios. Previous works typically suppress artifacts with an extra loss penalty in the training phase. They only work for in-distribution artifact types generated during training. When applied in real-world scenarios, we observe that those improved methods still generate obviously annoying artifacts during inference. In this paper, we analyze the cause and characteristics of the GAN artifacts produced in unseen test data without ground-truths. We then develop a novel method, namely, DeSRA, to Detect and then Delete those SR Artifacts in practice. Specifically, we propose to measure a relative local variance distance from MSE-SR results and GAN-SR results, and locate the problematic areas based on the above distance and semantic-aware thresholds. After detecting the artifact regions, we develop a finetune procedure to improve GAN-based SR models with a few samples, so that they can deal with similar types of artifacts in more unseen real data. Equipped with our DeSRA, we can successfully eliminate artifacts from inference and improve the ability of SR models to be applied in real-world scenarios. The code will be available at https://github.com/TencentARC/DeSRA.
研究の動機と目的
- 推論中に現れる未知の実データに対してGAN推論アーティファクトの動機づけと対処を行う。
- 現実のテストデータに対して地上真実なしで動作する定量的・意味論的なアーティファクト検出機構を提案する。
- MSE-SRの結果から派生した擬似地上真実を用いてアーティファクトを最小限のデータで削減する軽量なファインチューニング戦略を提供する。
- Real-ESRGANおよびLDLモデルで、限定的な追加データで有効性を示す。
- 現実世界のシナリオでの知覚品質とアーティファクト抑制の改善を示す。
提案手法
- MSE-SRとGAN-SRのパッチで局所的なテクスチャ分散を計算し、正規化・意味的に調整された相対的アーティファクト距離Dを導出する。
- SegFormerベースの意味論的領域を用いて85パーセンタイル統計によりクラスごとにアーティファクト検出の重みを適応させる。
- モルフォロジー演算でアーティファクト領域を輪郭づける最終的なアーティファクトマスクを生成する。
- artifactマスクを用いてMSE-SR結果をGAN-SR出力に統合して擬似地上真実を作成し、GAN-SRモデルを短時間の学習回数(約1k iterations)でファインチューニングする。
- IoU、Precision、Recallで検出を評価し、 manually labeled artifact maps に対して、定性的およびユーザ研究の証拠でアーティファクト除去を評価する。
実験結果
リサーチクエスチョン
- RQ1GAN-SR推論中に未知の実データに現れるGAN推論アーティファクトの種類は何か。
- RQ2現実データ上で地上真実なしに自動的にアーティファクト領域を検出するにはどうすればよいか。
- RQ3擬似地上真実を用いる軽量なファインチューニング戦略は、非アーティファクト領域の劣化を招くことなく未知データのGAN推論アーティファクトを減らせるか。
- RQ4現実世界のシナリオにおけるReal-ESRGANとLDLといった最先端のGAN-SRモデルでDeSRAはどの程度機能するか。
主な発見
| Method | IoU (↑) | Precision | Recall |
|---|---|---|---|
| NIQE | 2.9 | 0.0494 | 0.1054 |
| PAL4Inpainting | 8.4 | 0.0855 | 0.0992 |
| LDL*(threshold=0.01) | 29.9 | 0.3504 | 0.3485 |
| LDL*(threshold=0.005) | 36.2 | 0.2618 | 0.5442 |
| LDL*(threshold=0.001) | 35.3 | 0.1410 | 0.8391 |
| DeSRA-det (ours) | 51.1 | 0.7055 | 0.6081 |
- DeSRAはReal-ESRGANおよびLDLに対してNIQE、PAL4Inpainting、および修正LDLのベースラインよりもアーティファクト検出のIoUと精度が高くなる。IoUはDeSRA-detで51.1、ベースラインで2.9–36.2、精度は最大0.7055。
- DeSRAでのファインチューニングはReal-ESRGANでアーティファクト領域を75.4%削減(IoUが51.1から12.9へ低下)、LDLで74.97%削減(IoUが44.5から13.9へ低下)し、新たなアーティファクトは発生しない。
- ユーザ調査では、参加者の82.23%がファインチューニング結果のアーティファクトが元のGAN-SR出力より少ないと判断し、93%がMSE-SR出力よりも詳細であると感じた。
- 本アプローチは少数データセット(50組のトレーニングペア)と約1000回のファインチューニングで、未知の現実データ上のGAN推論アーティファクトを効果的に抑制する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。