QUICK REVIEW

[論文レビュー] An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

Baoguang Shi, Xiang Bai|arXiv (Cornell University)|Jul 21, 2015

Handwritten Text Recognition Techniques参考文献 27被引用数 64

ひとこと要約

本稿では、画像ベースの系列認識のための、畳み込み特徴抽出、再帰的系列モデリング、変換を統合したエンド・ツー・エンドで学習可能な新規ニューラルネットワーク、CRNNを提案する。CNNと双方向LSTMを組み合わせることで、文字レベルのアノテーション、セグメンテーション、固定サイズの入力が不要でありながら、シーンテキスト認識で最先端の性能を達成するとともに、光学楽譜認識にも優れた精度で一般化可能である。

ABSTRACT

Image-based sequence recognition has been a long-standing research topic in computer vision. In this paper, we investigate the problem of scene text recognition, which is among the most important and challenging tasks in image-based sequence recognition. A novel neural network architecture, which integrates feature extraction, sequence modeling and transcription into a unified framework, is proposed. Compared with previous systems for scene text recognition, the proposed architecture possesses four distinctive properties: (1) It is end-to-end trainable, in contrast to most of the existing algorithms whose components are separately trained and tuned. (2) It naturally handles sequences in arbitrary lengths, involving no character segmentation or horizontal scale normalization. (3) It is not confined to any predefined lexicon and achieves remarkable performances in both lexicon-free and lexicon-based scene text recognition tasks. (4) It generates an effective yet much smaller model, which is more practical for real-world application scenarios. The experiments on standard benchmarks, including the IIIT-5K, Street View Text and ICDAR datasets, demonstrate the superiority of the proposed algorithm over the prior arts. Moreover, the proposed algorithm performs well in the task of image-based music score recognition, which evidently verifies the generality of it.

研究の動機と目的

文字検出器や固定サイズの入力に依存する従来の画像ベースの系列認識手法が抱える、分離された微分不可能なコンponentsに起因する制限を解消すること。
詳細なアノテーションが不要な状態で、生の画像入力から可変長の系列を直接予測できる統合型ディープラーニングフレームワークの開発。
シーンテキスト認識や楽譜認識を含む多様な系列認識タスクに一般化可能な、コンactかつ効率的なモデルの構築。
二値化、セグメンテーション、スケール正規化などの手作業による前処理手順を排除し、実世界の画像においても頑健な性能を発揮できるようにすること。

提案手法

CRNNアーキテクチャは、階層的特徴学習のための畳み込み層、系列モデリングのための双方向Long Short-Term Memory（BLSTM）層、および系列変換のためのコネクティスト・テンポラル・クラスフィケーション（CTC）層の3つのコンponentsを統合している。
ネットワークは、文字レベルのアノテーションが不要なため、単語レベルのラベルからの直接的监督が可能なCTC損失関数を用いてエンド・ツー・エンドで学習される。
畳み込み層からの特徴マップは空間的にプーリングされ、BLSTM層に供給され、視覚的特徴の系列における長距離依存性をモデル化する。
入力の高さの変動に対して不変となるように高さ正規化が施されており、任意長の系列の処理が可能である。
完全結合層を回避することで、従来のDCNNと比較して顕著に小型かつ効率的なモデルが実現されている。
フレームワークは標準的なベンチマークを用いたシーンテキスト認識に適用され、アーキテクチャの変更を最小限に抑えつつ、光学楽譜認識に拡張されている。

実験結果

リサーチクエスチョン

RQ1文字レベルのアノテーションやセグメンテーションが不要な状態で、統合型ディープラーニングモデルが画像ベースの系列認識においてエンド・ツー・エンド学習を達成できるか。
RQ2CNNとRNNの統合が、シーンテキストや楽譜など可変長系列認識タスクの性能をどのように向上させるか。
RQ3同一アーキテクチャが、英語や中国語のテキスト、楽譜記号など、異なる系列認識分野にどの程度一般化可能か。
RQ4二値化やセグメンテーションなどの手作業による前処理手順が欠落することで、ノイズの多い実世界の画像においても性能が向上するか。

主な発見

CRNNは、IIIT-5K、Street View Text、ICDARのシーンテキスト認識ベンチマークで最先端の性能を達成しており、分離された検出と認識の段階に依存する従来手法を上回っている。
ICDAR 2015のシーンテキストデータセットでは、単語認識精度が88.8%に達し、以前の最先端手法を上回っている。
光学楽譜認識では、実世界の楽譜画像で84.0%の断片精度と平均編集距離0.30を達成しており、Capella Scan や PhotoScore などの商用システムを顕著に上回っている。
従来のDCNNと比較してパラメータ数を削減しており、実世界のデプロイメントに適したよりコンactかつ効率的なアーキテクチャが実現されている。
合成データおよび実世界データにおいて、商用システムが失敗するような画像の歪みや背景のごみに対しても、CRNNは頑健であることが実証されている。
アブレーションスタディの結果、CNNと双方向LSTMの組み合わせが不可欠であり、CTC損失が文字レベルのアノテーションが不要な状態で効果的なエンド・ツー・エンド学習を可能にしていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。