QUICK REVIEW

[論文レビュー] Learning Texture Transformer Network for Image Super-Resolution

Fuzhi Yang, Huan Yang|arXiv (Cornell University)|Jun 7, 2020

Advanced Image Processing Techniques参考文献 41被引用数 47

ひとこと要約

TTSRは学習可能なテクスチャ抽出とハード/ソフトアテンションを用いて、参照画像からLR画像へHRテクスチャを転送し高品質なSRを実現するテクスチャ変換器を紹介する。クロススケール特徴統合により結果を強化する。

ABSTRACT

We study on image super-resolution (SR), which aims to recover realistic textures from a low-resolution (LR) image. Recent progress has been made by taking high-resolution images as references (Ref), so that relevant textures can be transferred to LR images. However, existing SR approaches neglect to use attention mechanisms to transfer high-resolution (HR) textures from Ref images, which limits these approaches in challenging cases. In this paper, we propose a novel Texture Transformer Network for Image Super-Resolution (TTSR), in which the LR and Ref images are formulated as queries and keys in a transformer, respectively. TTSR consists of four closely-related modules optimized for image generation tasks, including a learnable texture extractor by DNN, a relevance embedding module, a hard-attention module for texture transfer, and a soft-attention module for texture synthesis. Such a design encourages joint feature learning across LR and Ref images, in which deep feature correspondences can be discovered by attention, and thus accurate texture features can be transferred. The proposed texture transformer can be further stacked in a cross-scale way, which enables texture recovery from different levels (e.g., from 1x to 4x magnification). Extensive experiments show that TTSR achieves significant improvements over state-of-the-art approaches on both quantitative and qualitative evaluations.

研究の動機と目的

参考画像（RefSR）から関連テクスチャを転送することによってSRを改善する動機付け（単一画像の priors に依存しない）。
LRとRefの特徴を共同で埋め込むための学習可能なテクスチャ抽出器を開発する。
RefからLRの特徴へ転送・合成するためのハードおよびソフトアテンションを用いた関連埋め込みを設計する。
テクスチャ変換器を積み重ね、1xから4xなどのスケールをまたいでテクスチャを学習するためのクロススケール特徴統合（CSFI）を導入する。

提案手法

4つのモジュールからなるテクスチャ変換器を提案する：Learnable Texture Extractor (LTE)、Relevance Embedding (RE)、テクスチャ転送のためのHard-Attention (HA)、テクスチャ合成のためのSoft-Attention (SA)。
LRをクエリ、Ref（およびそのダウンサンプリング／アップサンプリング variante）をトランスフォーマーのキー/値として定式化する；パッチレベルの内積で関連性を計算する。
Hard attentionはRefから最も関連性の高いテクスチャパッチを転送する。Soft attentionは転送されたテクスチャをLR特徴と融合演算F_out = F + Conv(Concat(F,T)) ⊙ Sで統合する。
スケール間でテクスチャ変換器を積み重ね、Cross-Scale Feature Integration (CSFI)を適用してスケール間で特徴を交換し、より豊かな表現を得る。
再構成損失（L_rec）、敵対的損失（L_adv、WGAN-GP）、知覚損失（L_per）を組み合わせて学習し、転送知覚損失を含んで転送されたテクスチャ特徴を整列させる。

実験結果

リサーチクエスチョン

RQ1トランスフォーマー系アテンションを用いて、参照画像からHRテクスチャをLR画像へ効果的に転送する方法はどのようにできるか？
RQ2学習可能なテクスチャ抽出器はRefSRにおける固定のセマンティック特徴（例：VGG）よりテクスチャ転送を向上させるのか？
RQ3HardとSoftアテンションがRefのテクスチャをSRのために転送・合成する際の影響は何か？
RQ4CSFIを用いたクロススケールのテクスチャ変換器の積み重ねは、複数の拡大率でのテクスチャ回復を改善するか？

主な発見

手法	CUFED5 PSNR/SSIM	Sun80 PSNR/SSIM	Urban100 PSNR/SSIM	Manga109 PSNR/SSIM
SRCNN	25.33 / .745	28.26 / .781	24.41 / .738	27.12 / .850
MDSR	25.93 / .777	28.52 / .792	25.51 / .783	28.93 / .891
RDN	25.95 / .769	29.63 / .806	25.38 / .768	29.24 / .894
RCAN	26.06 / .769	29.86 / .810	25.42 / .768	29.38 / .895
SRGAN	24.40 / .702	26.76 / .725	24.07 / .729	25.12 / .802
ENet	24.24 / .695	26.24 / .702	23.63 / .711	25.25 / .802
ESRGAN	21.90 / .633	24.18 / .651	20.91 / .620	23.53 / .797
RSRGAN	22.31 / .635	25.60 / .667	21.47 / .624	25.04 / .803
CrossNet	25.48 / .764	28.52 / .793	25.11 / .764	23.36 / .741
SRNTT-rec	26.24 / .784	28.54 / .793	25.50 / .783	28.95 / .885
SRNTT	25.61 / .764	27.59 / .756	25.09 / .774	27.54 / .862
TTSR-rec	27.09 / .804	30.02 / .814	25.87 / .784	30.09 / .907
TTSR	25.53 / .765	28.59 / .774	24.62 / .747	28.70 / .886

TTSRは再構成損失（TTSR-rec）で訓練された場合、CUFED5、Sun80、Urban100、Manga109 の標準的なSISRおよびRefSR手法よりも高いPSNR/SSIMを回復する。
TTSRは知覚的/視覚的品質が優れており、ユーザ調査でも複数のベースラインに対して90%以上の票を獲得した。
アブレーションによりHA、SA、LTEが順次性能を向上させ、LTEはVGGベースの関連埋め込みよりも大きな改善を提供する。
CSFIはTT単独よりも顕著なPSNR/SSIMの向上（アブレーションで0.17 PSNR）を提供し、単にチャンネルを拡張するのと比べても効率を維持する。
転送知覚損失はテクスチャ転送の精度と定量指標（PSNR/SSIM）を改善する。
参照類似度が低下した場合の性能は穏やかに低下し、L1参照が最良の結果をもたらす。LRを参照として用いても従来のRefSR手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。