[論文レビュー] Learning Texture Transformer Network for Image Super-Resolution
TTSRは学習可能なテクスチャ抽出とハード/ソフトアテンションを用いて、参照画像からLR画像へHRテクスチャを転送し高品質なSRを実現するテクスチャ変換器を紹介する。クロススケール特徴統合により結果を強化する。
We study on image super-resolution (SR), which aims to recover realistic textures from a low-resolution (LR) image. Recent progress has been made by taking high-resolution images as references (Ref), so that relevant textures can be transferred to LR images. However, existing SR approaches neglect to use attention mechanisms to transfer high-resolution (HR) textures from Ref images, which limits these approaches in challenging cases. In this paper, we propose a novel Texture Transformer Network for Image Super-Resolution (TTSR), in which the LR and Ref images are formulated as queries and keys in a transformer, respectively. TTSR consists of four closely-related modules optimized for image generation tasks, including a learnable texture extractor by DNN, a relevance embedding module, a hard-attention module for texture transfer, and a soft-attention module for texture synthesis. Such a design encourages joint feature learning across LR and Ref images, in which deep feature correspondences can be discovered by attention, and thus accurate texture features can be transferred. The proposed texture transformer can be further stacked in a cross-scale way, which enables texture recovery from different levels (e.g., from 1x to 4x magnification). Extensive experiments show that TTSR achieves significant improvements over state-of-the-art approaches on both quantitative and qualitative evaluations.
研究の動機と目的
- 参考画像(RefSR)から関連テクスチャを転送することによってSRを改善する動機付け(単一画像の priors に依存しない)。
- LRとRefの特徴を共同で埋め込むための学習可能なテクスチャ抽出器を開発する。
- RefからLRの特徴へ転送・合成するためのハードおよびソフトアテンションを用いた関連埋め込みを設計する。
- テクスチャ変換器を積み重ね、1xから4xなどのスケールをまたいでテクスチャを学習するためのクロススケール特徴統合(CSFI)を導入する。
提案手法
- 4つのモジュールからなるテクスチャ変換器を提案する:Learnable Texture Extractor (LTE)、Relevance Embedding (RE)、テクスチャ転送のためのHard-Attention (HA)、テクスチャ合成のためのSoft-Attention (SA)。
- LRをクエリ、Ref(およびそのダウンサンプリング/アップサンプリング variante)をトランスフォーマーのキー/値として定式化する;パッチレベルの内積で関連性を計算する。
- Hard attentionはRefから最も関連性の高いテクスチャパッチを転送する。Soft attentionは転送されたテクスチャをLR特徴と融合演算F_out = F + Conv(Concat(F,T)) ⊙ Sで統合する。
- スケール間でテクスチャ変換器を積み重ね、Cross-Scale Feature Integration (CSFI)を適用してスケール間で特徴を交換し、より豊かな表現を得る。
- 再構成損失(L_rec)、敵対的損失(L_adv、WGAN-GP)、知覚損失(L_per)を組み合わせて学習し、転送知覚損失を含んで転送されたテクスチャ特徴を整列させる。
実験結果
リサーチクエスチョン
- RQ1トランスフォーマー系アテンションを用いて、参照画像からHRテクスチャをLR画像へ効果的に転送する方法はどのようにできるか?
- RQ2学習可能なテクスチャ抽出器はRefSRにおける固定のセマンティック特徴(例:VGG)よりテクスチャ転送を向上させるのか?
- RQ3HardとSoftアテンションがRefのテクスチャをSRのために転送・合成する際の影響は何か?
- RQ4CSFIを用いたクロススケールのテクスチャ変換器の積み重ねは、複数の拡大率でのテクスチャ回復を改善するか?
主な発見
| 手法 | CUFED5 PSNR/SSIM | Sun80 PSNR/SSIM | Urban100 PSNR/SSIM | Manga109 PSNR/SSIM |
|---|---|---|---|---|
| SRCNN | 25.33 / .745 | 28.26 / .781 | 24.41 / .738 | 27.12 / .850 |
| MDSR | 25.93 / .777 | 28.52 / .792 | 25.51 / .783 | 28.93 / .891 |
| RDN | 25.95 / .769 | 29.63 / .806 | 25.38 / .768 | 29.24 / .894 |
| RCAN | 26.06 / .769 | 29.86 / .810 | 25.42 / .768 | 29.38 / .895 |
| SRGAN | 24.40 / .702 | 26.76 / .725 | 24.07 / .729 | 25.12 / .802 |
| ENet | 24.24 / .695 | 26.24 / .702 | 23.63 / .711 | 25.25 / .802 |
| ESRGAN | 21.90 / .633 | 24.18 / .651 | 20.91 / .620 | 23.53 / .797 |
| RSRGAN | 22.31 / .635 | 25.60 / .667 | 21.47 / .624 | 25.04 / .803 |
| CrossNet | 25.48 / .764 | 28.52 / .793 | 25.11 / .764 | 23.36 / .741 |
| SRNTT-rec | 26.24 / .784 | 28.54 / .793 | 25.50 / .783 | 28.95 / .885 |
| SRNTT | 25.61 / .764 | 27.59 / .756 | 25.09 / .774 | 27.54 / .862 |
| TTSR-rec | 27.09 / .804 | 30.02 / .814 | 25.87 / .784 | 30.09 / .907 |
| TTSR | 25.53 / .765 | 28.59 / .774 | 24.62 / .747 | 28.70 / .886 |
- TTSRは再構成損失(TTSR-rec)で訓練された場合、CUFED5、Sun80、Urban100、Manga109 の標準的なSISRおよびRefSR手法よりも高いPSNR/SSIMを回復する。
- TTSRは知覚的/視覚的品質が優れており、ユーザ調査でも複数のベースラインに対して90%以上の票を獲得した。
- アブレーションによりHA、SA、LTEが順次性能を向上させ、LTEはVGGベースの関連埋め込みよりも大きな改善を提供する。
- CSFIはTT単独よりも顕著なPSNR/SSIMの向上(アブレーションで0.17 PSNR)を提供し、単にチャンネルを拡張するのと比べても効率を維持する。
- 転送知覚損失はテクスチャ転送の精度と定量指標(PSNR/SSIM)を改善する。
- 参照類似度が低下した場合の性能は穏やかに低下し、L1参照が最良の結果をもたらす。LRを参照として用いても従来のRefSR手法を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。