Skip to main content
QUICK REVIEW

[論文レビュー] TextSR: Content-Aware Text Super-Resolution Guided by Recognition

Wenjia Wang, Enze Xie|arXiv (Cornell University)|Sep 16, 2019
Digital Media Forensic Detection参考文献 44被引用数 47
ひとこと要約

TextSR は超解像と文字認識を共同で学習し、認識に適したテキスト内容へ SR を導く新規の Text Perceptual Loss を使用して、微小でぼやけた文字の認識を改善します。

ABSTRACT

Scene text recognition has witnessed rapid development with the advance of convolutional neural networks. Nonetheless, most of the previous methods may not work well in recognizing text with low resolution which is often seen in natural scene images. An intuitive solution is to introduce super-resolution techniques as pre-processing. However, conventional super-resolution methods in the literature mainly focus on reconstructing the detailed texture of natural images, which typically do not work well for text due to the unique characteristics of text. To tackle these problems, in this work, we propose a content-aware text super-resolution network to generate the information desired for text recognition. In particular, we design an end-to-end network that can perform super-resolution and text recognition simultaneously. Different from previous super-resolution methods, we use the loss of text recognition as the Text Perceptual Loss to guide the training of the super-resolution network, and thus it pays more attention to the text content, rather than the irrelevant background area. Extensive experiments on several challenging benchmarks demonstrate the effectiveness of our proposed method in restoring a sharp high-resolution image from a small blurred one, and show that the recognition performance clearly boosts up the performance of text recognizer. To our knowledge, this is the first work focusing on text super-resolution. Code will be released in https://github.com/xieenze/TextSR.

研究の動機と目的

  • 文字が小さいまたはぼやけている場合のシーン文字認識の改善を促進する。
  • 超解像と文字認識を結びつけるエンドツーエンドのネットワークを開発する。
  • 背景よりも文字内容を強調するために、認識損失を SR ジェネレータへ逆伝播させる Text Perceptual Loss を導入する。

提案手法

  • 4x 超解像のために generator-discriminator アーキテクチャを使用する。
  • 認識フィードバックを提供するためにテキスト認識器(ASTER)を統合する。
  • テキスト認識損失をジェネレータのトレーニングへ逆伝播させる Text Perceptual Loss(TPL)を導入する。
  • ASTER を用いたエンドツーエンドまたは段階的なバリアントで訓練して、SR を認識可能なテキストへと導く。

実験結果

リサーチクエスチョン

  • RQ1従来の SR 手法と比べて、コンテンツ認識型の超解像は小さくぼやけた文字の認識を改善できるか?
  • RQ2Text Perceptual Loss は、一般的な画像内容に基づく知覚損失よりも認識に適した SR 出力を生むか?
  • RQ3標準ベンチマークでの下流の認識精度に対して、テキスト認識器を用いたエンドツーエンド訓練は有益か?
  • RQ4TextSR は認識ベンチマークと極端なダウンサンプリング下で、SRGAN およびバイキュービックのベースラインと比較してどうなるか?

主な発見

  • TextSR は複数のデータセットで PSNR と SSIM において一貫して SRGAN を上回る。
  • TextSR は SRGAN より大きな認識向上をもたらし、特に非常に小さな文字で顕著(例: IC13 の 20x5 画像で最大 22.8% の改善)
  • Text Perceptual Loss を用いたエンドツーエンドまたは段階的訓練は、IC13、IC15、SVT、SVTP、IIIT5K、CUTE などのベンチマークで認識性能を高める、より内容認識的な SR 結果を生む。
  • 強力な認識器(ASTER)と組み合わせた場合に認識精度を向上させ、検出時代の画像にも顕著な改善をもたらす。
  • 定性的分析は、TextSR がテキスト領域に応答を集中させ、SRGAN よりも明確で識別しやすい文字を生み出すことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。