QUICK REVIEW

[論文レビュー] 2D Attentional Irregular Scene Text Recognizer

Pengyuan Lyu, Zhicheng Yang|arXiv (Cornell University)|Jun 13, 2019

Handwritten Text Recognition Techniques参考文献 46被引用数 50

ひとこと要約

この論文は、関係アテンションモジュールと並列アテンションモジュールを用いて、2D空間での不規則なシーンテキストを直接エンコード・デコードする2Dアテンションベースのフレームワークを提案し、複数のベンチマークで最先端の結果と高速推論を達成します。

ABSTRACT

Irregular scene text, which has complex layout in 2D space, is challenging to most previous scene text recognizers. Recently, some irregular scene text recognizers either rectify the irregular text to regular text image with approximate 1D layout or transform the 2D image feature map to 1D feature sequence. Though these methods have achieved good performance, the robustness and accuracy are still limited due to the loss of spatial information in the process of 2D to 1D transformation. Different from all of previous, we in this paper propose a framework which transforms the irregular text with 2D layout to character sequence directly via 2D attentional scheme. We utilize a relation attention module to capture the dependencies of feature maps and a parallel attention module to decode all characters in parallel, which make our method more effective and efficient. Extensive experiments on several public benchmarks as well as our collected multi-line text dataset show that our approach is effective to recognize regular and irregular scene text and outperforms previous methods both in accuracy and speed.

研究の動機と目的

整形補正や1D変換なしに、2Dレイアウトの不規則テキストの頑健な認識を動機付ける。
精度向上のため2D空間情報を保持するエンドツーエンドフレームワークを開発する。
グローバルコンテキストを捉える2Dリレーションアテンションモジュールを導入する。
同時に複数の文字を出力する並列アテンションモジュールを導入する。
通常・不規則・マルチラインテキストデータセットで最先端の性能と効率を実証する。

提案手法

CNNエンコーダで入力をエンコードして2D特徴マップを得る。
2Dリレーションアテンションモジュール（多層双方向トランスフォーマー）を適用して、平坦化された特徴マップ間のグローバルな依存関係を捉える。
並列に2D特徴から複数のグリンプスを生成する（出力ノードn）。
グリンプスを2段階のデコーダでデコードする：第一段階デコーダが予備の文字を予測する。第二段階デコーダはリレーションアテンションモジュールを用いて出力間の依存関係をモデル化し、予測を改良する。
2つのデコーダとすべての出力ノードに対してクロスエントロピーを足し合わせたマルチタスク損失でエンドツーエンドに学習する。

実験結果

リサーチクエスチョン

RQ12Dアテンションは整形補正や1D平坦化を伴わずに、不規則な2Dテキストレイアウト上で直接正確な文字列を生成できるか。
RQ2リレーションアテンションと并列アテンションは、不規則・マルチラインテキスト認識の頑健性と効率を向上させるか。
RQ3提案手法は通常データセットと不規則データセット、そしてナンバープレートのようなマルチラインテキストでどう性能を示すか。
RQ4第2段階デコーダとトランスフォーマー層数が認識精度に与える影響はどの程度か。

主な発見

複数の通常および不規則なシーンテキストデータセットで最先端の結果を達成。
SVTPとCUTE80でそれぞれ3.8%、3.5%の改善。
MLT280でのマルチラインテキスト認識が顕著で、ASTERとSARを大幅に上回る（random init: 61.4% 対 40.0%、fine-tuned: 80.7% 対 62.5%）。
rectificationベースの手法および再帰的な2Dアテンション手法より、約2.1倍および4.4倍速い（MLT280で）。
第2段階デコーダとリレーションアテンションモジュールは、一貫して第1段階デコーダおよびベースライン変種より精度を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。