QUICK REVIEW

[論文レビュー] 2D-CTC for Scene Text Recognition

Zhaoyi Wan, Fengming Xie|arXiv (Cornell University)|Jul 23, 2019

Handwritten Text Recognition Techniques参考文献 39被引用数 30

ひとこと要約

この論文は、2D-CTCを提案する。これは、曲がった、方向がずれた、ノイズの多いテキストをよりよく扱えるように、シーンテキストを1次元のシーケンスではなく2次元確率分布としてモデル化する、Connectionist Temporal Classification (CTC) の拡張である。2D-CTCは、通常のテキストと不規則なテキストの両方のベンチマークで最先端の精度を達成しながら、高い推論速度を維持し、従来のCTCおよびアテンションベースの手法を上回っている。

ABSTRACT

Scene text recognition has been an important, active research topic in computer vision for years. Previous approaches mainly consider text as 1D signals and cast scene text recognition as a sequence prediction problem, by feat of CTC or attention based encoder-decoder framework, which is originally designed for speech recognition. However, different from speech voices, which are 1D signals, text instances are essentially distributed in 2D image spaces. To adhere to and make use of the 2D nature of text for higher recognition accuracy, we extend the vanilla CTC model to a second dimension, thus creating 2D-CTC. 2D-CTC can adaptively concentrate on most relevant features while excluding the impact from clutters and noises in the background; It can also naturally handle text instances with various forms (horizontal, oriented and curved) while giving more interpretable intermediate predictions. The experiments on standard benchmarks for scene text recognition, such as IIIT-5K, ICDAR 2015, SVP-Perspective, and CUTE80, demonstrate that the proposed 2D-CTC model outperforms state-of-the-art methods on the text of both regular and irregular shapes. Moreover, 2D-CTC exhibits its superiority over prior art on training and testing speed. Our implementation and models of 2D-CTC will be made publicly available soon later.

研究の動機と目的

従来のCTCが、本質的に2次元であるが1次元シーケンスに縮約されるシーンテキストの2次元空間的分布を適切に扱えないという限界を解消すること。
高さ方向に沿った2次元確率分布上で動作するようにCTCを拡張することで、テキスト特徴における空間的文脈を保持すること。
曲がった、回転させた、方向がずれたテキストなどの不規則なテキスト形態の認識精度を向上させること。1次元シーケンスモデルではこれらがうまく処理されない。
2次元-CTCの計算に効率的な動的計画法を設計することで、高い推論速度を維持すること。
文字レベルのアノテーションを必要とせず、アテンションに類似した特徴の注目を可能にすることで、中間予測をより解釈可能にする。

提案手法

確率分布に時間方向に加えて高さ方向（2番目の次元）を導入することで、従来のCTCを拡張し、時間および高さの両方向に沿ったパス探索を可能にする。
2次元分布上の条件付き確率を計算するようにCTC損失関数を再定式化し、空間的構造を保持するとともに、ノイズの影響を低減する。
動的計画法を用いて2次元-CTC損失を効率的に計算し、追加された次元にもかかわらず、時間計算量をほとんど無視できる程度に抑える。
エンドツーエンド学習と推論を可能にする完全畳み込みネットワークアーキテクチャを採用することで、並列処理が可能となり、高速化を実現。
背景のゴミダミングを抑制しながら、関連するテキスト特徴に適応的に注目するパス遷移メカニズムを導入。
境界ボックスアノテーションを必要とせず、高さ方向におけるアテンションに類似した挙動を可視化することで、弱教師付き文字位置特定を実現。

実験結果

リサーチクエスチョン

RQ12次元に拡張されたCTCが、特に不規則で曲がったテキストに対して認識精度を向上させられるか？
RQ2テキスト認識において2次元空間的分布をモデル化することで、1次元シーケンスモデルと比較して、背景のノイズやごみの影響に対して感受性が低くなるか？
RQ32次元-CTCが、従来のCTCおよびアテンションベースのデコーダーを上回る高い精度を達成するとともに、推論速度を維持または向上できるか？
RQ42次元-CTCの定式化によって、明示的な教師信号なしに、文字の位置推定のような解釈可能な中間予測をどの程度可能にできるか？
RQ52次元-CTCの計算コストはどのようにスケーリングされるか？また、効率的な動的計画法によって、実世界のデプロイに実用的になるか？

主な発見

2D-CTCは、IIIT-5K、ICDAR 2015、SVP-Perspective、CUTE80 といった標準ベンチマークで最先端の性能を達成しており、CUTE80 や Total-Text といった不規則なテキストデータセットにおいて顕著な向上を示している。
CUTE80ベンチマークでは、2D-CTCは91.8%の認識精度を達成し、先行手法を上回っており、曲がったおよび回転したテキストに対しても強いロバスト性を示している。
1つのGPU上で36.22 FPSで動作しており、アテンションベースのASTEROIDモデル（11.35 FPS）の3〜4倍速く、推論効率に優れていることが示された。
動的計画法により、2次元-CTCの計算コストがほとんど無視できる程度に抑えられ、次元の増加にもかかわらず実用的であることが実証された。
2D-CTCは、文字の位置と方向の概算を可視化することで、より解釈可能な予測を生成しており、文字レベルのアノテーションを必要としていない。
2D-CTCは、従来のCTCおよび2Dアテンションを追加したCTCよりも一貫して優れた性能を示しており、代替的なアテンション統合戦略に比べ、2次元-CTCの定式化の優位性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。