QUICK REVIEW

[論文レビュー] Reading Scene Text in Deep Convolutional Sequences

Pan He, Weilin Huang|arXiv (Cornell University)|Jun 14, 2015

Handwritten Text Recognition Techniques参考文献 38被引用数 38

ひとこと要約

本稿では、文字分割を経ずに、単語画像から順序付きの深層畳み込み特徴の系列を生成することで、シーンテキストを読み取る手法であるDeep-Text Recurrent Network (DTRN) を提案する。LSTM を用いて文脈的依存関係をモデル化することで、SVT および IIIT5k でそれぞれ 93.5% および 94.0% の精度を達成し、言語モデルや後処理を必要とせず、未知語や任意の文字列をエンドツーエンドで処理する、最先端の性能を発揮する。

ABSTRACT

We develop a Deep-Text Recurrent Network (DTRN) that regards scene text reading as a sequence labelling problem. We leverage recent advances of deep convolutional neural networks to generate an ordered high-level sequence from a whole word image, avoiding the difficult character segmentation problem. Then a deep recurrent model, building on long short-term memory (LSTM), is developed to robustly recognize the generated CNN sequences, departing from most existing approaches recognising each character independently. Our model has a number of appealing properties in comparison to existing scene text recognition methods: (i) It can recognise highly ambiguous words by leveraging meaningful context information, allowing it to work reliably without either pre- or post-processing; (ii) the deep CNN feature is robust to various image distortions; (iii) it retains the explicit order information in word image, which is essential to discriminate word strings; (iv) the model does not depend on pre-defined dictionary, and it can process unknown words and arbitrary strings. Codes for the DTRN will be available.

研究の動機と目的

シーンテキスト認識における文字レベルの分割と独立した分類の限界を解消すること。
曖昧または歪んだテキスト画像において、より高い耐障害性を実現するため、文脈的な単語レベルの情報を活用すること。
事前に定義された辞書に依存しないようにすることで、未知語や任意の文字列の認識を可能にすること。
特徴表現と系列ラベリングを同時に最適化するエンドツーエンドで学習可能なシステムを構築すること。
低解像度、低コントラスト、ごみだらけの背景条件下でも認識性能を向上させること。

提案手法

DTRN モデルは、スライディングウィンドウを単語画像全体にスキャンすることで、セグメンテーションを経ずに空間的順序を保持した順序付きの深層畳み込み特徴の系列を生成する。
深層畳み込みニューラルネットワーク (CNN) が、各スライディングウィンドウ領域から高レベルで頑健な特徴を抽出し、画像の歪みに対して不変な表現を実現する。
得られたCNN特徴の系列が、長短期記憶 (LSTM) ネットワークに供給され、文字間の順序的依存関係と文脈をモデル化する。
バックプロパゲーションを用いてエンドツーエンドで学習され、特徴抽出と系列ラベリングの両方を同時に最適化する。
文字レベルのアノテーション、言語モデル、後処理を必要とせず、直接的に単語文字列を予測可能である。
文字の明示的セグメンテーションを回避するため、単語画像を空間的に順序付けられた特徴マップの系列とみなす。

実験結果

リサーチクエスチョン

RQ1文字のセグメンテーションに依存せずに、文字間の文脈的情報を活用することで、深層再帰モデルがシーンテキストを効果的に認識できるか。
RQ2文字分類を独立して行うのではなく、系列ラベリング問題としてテキスト認識を定式化することで、曖昧または歪んだ単語画像における性能がどのように向上するか。
RQ3事前に定義された語彙が存在しないエンドツーエンドの深層学習モデルが、未知語や任意の文字列をどの程度処理できるか。
RQ4CNN特徴の明示的な順序情報が、複雑な背景条件下での判別性のある単語表現にどのように寄与するか。
RQ5エンドツーエンドで学習された再帰モデルは、分離された文字セグメンテーション、分類、言語モデルのコンponentを用いるシステムを上回ることができるか。

主な発見

SVT データセットでは、DTRN は 93.5% の精度を達成し、訓練データのわずか数パーセントで、DeepFeatures (86.1%) や PhotoOCR (90.4%) より顕著な向上を示した。
IIIT5k データセットでは、小規模語彙で 94.0%、大規模語彙で 91.5% の精度を達成し、Almazan 他らの全体画像表現手法を上回った。
DTRN は、訓練データが二桁少ないにもかかわらず、SVT で PhotoOCR より 3.1% の向上を示した。言語モデルや後処理を用いていなかったにもかかわらずである。
DTRN は語彙サイズの増加に対しても高い性能を維持したのに対し、ベースライン手法では精度が著しく低下したため、語彙サイズに対して高い耐性を示した。
複雑なケース、例えば 'AB00d' のような任意の文字列や未知語を正確に認識でき、固定辞書型システムを超える柔軟性を実証した。
CNN特徴の明示的な順序情報が、判別力の向上に不可欠であることが、順序情報がない手法と比較して一貫した性能向上を示すことで裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。