QUICK REVIEW

[論文レビュー] Alchemy: Techniques for Rectification Based Irregular Scene Text Recognition

Shangbang Long, Yushuo Guan|arXiv (Cornell University)|Aug 30, 2019

Handwritten Text Recognition Techniques被引用数 3

ひとこと要約

本論文は、不規則なシーンテキスト認識における補正ベース手法の性能を顕著に向上させる一連の技術「Alchemy」を紹介する。データ拡張、損失最適化、アーキテクチャの最適化を組み合わせることで、CUTE-80で89.6%、Total-Textで76.3%の精度を達成し、Icdar 2019 Arbitrary-Shaped Text Challengeで74.3%の精度を記録して優勝した。

ABSTRACT

Reading text from natural images is challenging due to the great variety in text font, color, size, complex background and etc.. The perspective distortion and non-linear spatial arrangement of characters make it further difficult. While rectification based method is intuitively grounded and has pushed the envelope by far, its potential is far from being well exploited. In this paper, we present a bag of tricks that prove to significantly improve the performance of rectification based method. On curved text dataset, our method achieves an accuracy of 89.6% on CUTE-80 and 76.3% on Total-Text, an improvement over previous state-of-the-art by 6.3% and 14.7% respectively. Furthermore, our combination of tricks helps us win the ICDAR 2019 Arbitrary-Shaped Text Challenge (Latin script), achieving an accuracy of 74.3% on the held-out test set. We release our code as well as data samples for further exploration at this https URL

研究の動機と目的

視覚的変動（フォント、色、背景）に加え、透視歪みや非線形な空間配置によって引き起こされる不規則なシーンテキスト認識の課題に対処すること。
直感的に妥当であるが実際には未活用にとどまっている補正ベース手法の潜在的力を解き放つこと。
特に従来手法が幾何学的複雑性に苦しむことがある、曲線状および任意形状のテキストベンチマークにおける性能向上を図ること。
標準ベンチマークおよび ICDAR 2019 Arbitrary-Shaped Text Challenge（ラテン文字）で最先端の結果を達成すること。

提案手法

本手法は、不規則なテキストの幾何変換を事前に推定し、その後テキストラインを正規化することで認識を容易にする補正ベースのフレームワークを採用する。
多様なテキスト形状と歪みを模擬するための新規なデータ拡張戦略を適用し、複雑な空間変動下での一般化性能を向上させる。
認識と補正の両方の監視を統合したマルチタスク損失を訓練プロセスに組み込み、予測されたテキストと正解テキストの整合性を強化する。
注目メカニズムと特徴量精錬モジュールを用いて、曲がりや透視歪みに対して頑健なアーキテクチャの最適化を実施する。
エンド・トゥ・エンド微分可能な補正を活用し、幾何的補正とテキスト認識の同時最適化を可能にする。
訓練の安定化と局所化精度の向上を図るために、適応的サンプリングや空間変換ネットワークなどの技術を用いる。

実験結果

リサーチクエスチョン

RQ1自然シーンにおける極めて不規則で曲がったテキストを処理できるように、補正ベース手法を体系的にどのように改善できるか？
RQ2データ拡張、損失関数、モデルアーキテクチャのどの組み合わせが、不規則なテキスト認識において最も顕著な性能向上をもたらすか？
RQ3一貫した技術セットが、CUTE-80 や Total-Text といった多様なベンチマークで性能向上を実現できるか？
RQ4補正ベース手法は、任意形状テキスト認識タスクにおいて、非補正アプローチをどの程度上回ることができるか？
RQ5ICDAR 2019 Arbitrary-Shaped Text Challenge における性能向上に最も寄与した具体的な構成要素は何か？

主な発見

提案手法は CUTE-80 データセットで 89.6% の精度を達成し、前回の最先端手法比で 6.3% の向上を示した。
Total-Text データセットでは 76.3% の精度に到達し、前回手法比で 14.7% の向上を記録した。
本手法は ICDAR 2019 Arbitrary-Shaped Text Challenge（ラテン文字）で第1位を獲得し、保留テストセットで 74.3% の精度を達成した。
Alchemy に統合された技術の組み合わせは、複数のベンチマークで一貫した性能向上を示しており、不規則なテキスト認識への広範な適用可能性を示している。
アブレーションスタディの結果、データ拡張と損失最適化が全体の性能向上において最も寄与していることが確認された。
コードとデータサンプルの公開により、再現性が確保され、補正ベースのシーンテキスト認識分野におけるさらなる研究が促進される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。