Skip to main content
QUICK REVIEW

[論文レビュー] Zooming Out on Zooming In: Advancing Super-Resolution for Remote Sensing

Piper Wolters, Favyen Bastani|arXiv (Cornell University)|Nov 29, 2023
Cryospheric studies and observations被引用数 8
ひとこと要約

この論文は、リモートセンシング超解像の知覚指標としてCLIPScoreを提案し、Large-scale S2-NAIPデータセットを構築し、GANs・拡散・CNNベースの手法を比較し、CLIPScoreを用いてGAN(ESRGAN)が他を上回る一方、超解像出力は機械用途にはまだ効果が小さいことを示すとともに、グローバルモデルを訓練・公開データとコードを提供する。

ABSTRACT

Super-Resolution for remote sensing has the potential for huge impact on planet monitoring by producing accurate and realistic high resolution imagery on a frequent basis and a global scale. Despite a lot of attention, several inconsistencies and challenges have prevented it from being deployed in practice. These include the lack of effective metrics, fragmented and relatively small-scale datasets for training, insufficient comparisons across a suite of methods, and unclear evidence for the use of super-resolution outputs for machine consumption. This work presents a new metric for super-resolution, CLIPScore, that corresponds far better with human judgments than previous metrics on an extensive study. We use CLIPScore to evaluate four standard methods on a new large-scale dataset, S2-NAIP, and three existing benchmark datasets, and find that generative adversarial networks easily outperform more traditional L2 loss-based models and are more semantically accurate than modern diffusion models. We also find that using CLIPScore as an auxiliary loss can speed up the training of GANs by 18x and lead to improved outputs, resulting in an effective model in diverse geographies across the world which we will release publicly. The dataset, pre-trained model weights, and code are available at https://github.com/allenai/satlas-super-resolution/.

研究の動機と目的

  • リモートセンシング超解像出力と人間の判断を一致させる指標を確立する。
  • スケーラブルな訓練・評価を可能にする大規模な公開データセット(S2-NAIP)を作成する。
  • 複数のリモートセンシングデータセットでSR手法(CNN、GAN、拡散)を体系的に比較する。
  • 超解像出力の下流機械タスクへの有用性と人間主導の可視化の比較を評価する。
  • 上述の知見を活用して、グローバルに適用可能な超解像モデルを開発・公開する。

提案手法

  • SR品質の人間判断と相関するCLIPScoreを提案する。
  • Sentinel-2とNAIP画像のLR-HRペアを合計120万組で含むS2-NAIPデータセットを構築・公開する。
  • 4つのデータセットにおいてSR手法(SRCNN、HighResNet、ESRGAN、SR3)をベンチマークし、CLIPScoreとLPIPS/cPSNRで知覚品質を評価する。
  • SR出力または特徴量が下流タスクを改善するかを調査し、SR表現を用いた転移学習を分析する。
  • トレーニングを加速し出力を改善するCLIPScoreベースの補助損失をESRGANに追加する。
Figure 2 : Example of a target image (GT), an ESRGAN output at full resolution as well as downsampled 16x, and a HighResNet output, with corresponding metrics. Note that the four images are ordered from best to worst based on human preference, and PSNR and SSIM increase in an opposite trend. Our pro
Figure 2 : Example of a target image (GT), an ESRGAN output at full resolution as well as downsampled 16x, and a HighResNet output, with corresponding metrics. Note that the four images are ordered from best to worst based on human preference, and PSNR and SSIM increase in an opposite trend. Our pro

実験結果

リサーチクエスチョン

  • RQ1CLIPScoreはリモートセンシングSR出力の人間判断とどの程度相関するか。
  • RQ2データセット規模(S2-NAIP)がSR性能に与える影響はどの程度か。
  • RQ3どのSR手法ファミリ(CNN、GAN、拡散)がリモートセンシングデータで最も知覚品質に優れるか。
  • RQ4SR出力は下流の機械タスクに有益か、それとも主に人間の可視化用途か。
  • RQ5CLIPベースの補助損失とドメイン知識でSR訓練を改善してより良い結果を得られるか。

主な発見

MethodS2-NAIP cPSNRS2-NAIP LPIPSS2-NAIP CLIPWorldStrat cPSNRWorldStrat LPIPSWorldStrat CLIPPROBA-V cPSNRPROBA-V LPIPSPROBA-V CLIPOLI2MSI cPSNROLI2MSI LPIPSOLI2MSI CLIP
SRCNN17.90390.35170.731.57460.44930.619623.94550.21120.792443.41130.76140.9285
HighResNet20.91710.1990.670532.87870.44160.599822.56870.21370.809635.73740.860.94
ESRGAN22.65060.84060.874531.7230.82990.984224.93360.21540.846536.32020.87090.9518
SR319.47060.62920.822330.5450.77450.923223.77890.21150.811534.22080.8390.9391
  • リモートセンシングにおけるSRではPSNRとSSIMが人間の判断と十分に相関しない。
  • CLIPScore(特にCLIPA-v2)はSR品質に対する人間の好みに最大84.6%の一致を達成。
  • GANs(ESRGAN)は4データセットを通じてCLIPScoreで拡散・L2ベースモデルを上回る。
  • CLIPScore損失を用いてESRGANを訓練すると訓練が約18倍速く進み、CLIPScoreを約9ポイント改善。
  • SR出力は下流の機械タスクではまだ元のLR画像を用いる方が優れていることが多いが、SR表現は転移学習を改善する可能性がある。
  • 大規模なS2-NAIPデータセットとグローバルなESRGANモデルにより、SR出力の公開配布とスケーラブルな実装が可能になる。
Figure 3 : The level of accuracy between human preferences and those generated by the various metrics. The x-axis is ordered from worst to best average accuracy between the two datasets. The y-axis is adjusted to a range of 40% to 90% to better show the difference in accuracy across metrics.
Figure 3 : The level of accuracy between human preferences and those generated by the various metrics. The x-axis is ordered from worst to best average accuracy between the two datasets. The y-axis is adjusted to a range of 40% to 90% to better show the difference in accuracy across metrics.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。