QUICK REVIEW

[論文レビュー] Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks

Ian Goodfellow, Yaroslav Bulatov|arXiv (Cornell University)|Dec 20, 2013

Handwritten Text Recognition Techniques被引用数 435

ひとこと要約

本論文では、ストリートビュー画像から直接複数桁の数字をエンド・ツー・エンドで局所化・分離・認識する深層畳み込みニューラルネットワークを提案する。1桁ごとの認識で97.84%の精度を達成し、全ストリート番号認識で96%を超える精度を示した。また、最も困難なreCAPTCHAパズルでは99.8%の精度を達成し、主要タスクにおいて人間水準の性能を示した。

ABSTRACT

Recognizing arbitrary multi-character text in unconstrained natural photographs is a hard problem. In this paper, we address an equally hard sub-problem in this domain viz. recognizing arbitrary multi-digit numbers from Street View imagery. Traditional approaches to solve this problem typically separate out the localization, segmentation, and recognition steps. In this paper we propose a unified approach that integrates these three steps via the use of a deep convolutional neural network that operates directly on the image pixels. We employ the DistBelief implementation of deep neural networks in order to train large, distributed neural networks on high quality images. We find that the performance of this approach increases with the depth of the convolutional network, with the best performance occurring in the deepest architecture we trained, with eleven hidden layers. We evaluate this approach on the publicly available SVHN dataset and achieve over $96\%$ accuracy in recognizing complete street numbers. We show that on a per-digit recognition task, we improve upon the state-of-the-art, achieving $97.84\%$ accuracy. We also evaluate this approach on an even more challenging dataset generated from Street View imagery containing several tens of millions of street number annotations and achieve over $90\%$ accuracy. To further explore the applicability of the proposed system to broader text recognition tasks, we apply it to synthetic distorted text from reCAPTCHA. reCAPTCHA is one of the most secure reverse turing tests that uses distorted text to distinguish humans from bots. We report a $99.8\%$ accuracy on the hardest category of reCAPTCHA. Our evaluations on both tasks indicate that at specific operating thresholds, the performance of the proposed system is comparable to, and in some cases exceeds, that of human operators.

研究の動機と目的

制約のないストリートレベルの画像における複数桁の数字の局所化・分離・認識を統合するエンド・ツー・エンドのシステムを開発すること。
分離された局所化と分離の段階を排除することで、従来のパイプラインベースのアプローチを改善すること。
SVHNデータセットと数千万のアノテーションを含む大規模なストリートビュー・データセットを含む、実世界のデータセット上でモデルの性能を評価すること。
reCAPTCHAパズルに適用することで、合成的で歪みのあるテキストへの一般化性能を評価すること。
深層アーキテクチャが、複雑な実世界のOCRタスクにおいて人間水準の性能を達成できるかどうかを検証すること。

提案手法

11層の隠れ層を有する深層畳み込みニューラルネットワークを、生のピクセルデータ上でエンド・ツー・エンドに訓練し、画像を直接数字のシーケンスにマッピングする。
シーケンスを条件付き独立な数字としてモデル化する新しい出力層を採用し、シーケンス予測のための確率的フレームワークを用いる。
大規模かつ分散型のニューラルネットワークを複数のマシンにスケーリングするために、DistBeliefフレームワークを用いて訓練を行う。
階層的特徴学習を活用し、初期層が局所化と分離を実行し、より深い層が認識に集中するように設計する。
最大長Nまで可変長シーケンスを処理できるようにアーキテクチャを設計し、各数字は別々の重み行列を用いて分類する。
より長いシーケンスの統計的効率を向上させるために、スライディング・ウィンドウによるデコード戦略を検討した。

実験結果

リサーチクエスチョン

RQ1深層畳み込みニューラルネットワークは、制約のないストリートレベルの画像における複数桁の数字の共同局所化・分離・認識を効果的に実行できるか？
RQ2浅いアーキテクチャと比較して、ネットワークの深さを増すことで、複数桁の数字認識の性能が顕著に向上するか？
RQ3統合された深層学習モデルは、歪みのあるreCAPTCHAパズルのような挑戦的なOCRタスクで人間水準の性能を達成できるか？
RQ4モデルの性能は、パrameter数ではなく、ネットワークの深さと表現能力にどれほど依存するか？
RQ5モデルは、数千万のアノテート済みストリート番号を含む大規模な実世界データセットにどのようにスケーリングできるか？

主な発見

1桁ごとの認識タスクで97.84%の精度を達成し、当時における最先端技術を上回った。
SVHNデータセットを用いた全ストリート番号認識タスクでは、96%を超える精度を達成した。
数千万のアノテーションを含むストリートビュー画像から抽出された大規模なデータセットでは、90%を超える精度を達成した。
最も困難なreCAPTCHAパズルのカテゴリでは、99.8%の変換精度を達成し、特定の動作閾値において人間水準の性能を上回った。
ネットワークの深さが性能向上に寄与し、より深いアーキテクチャは、過学習を起こしやすい浅いワイドモデルを著しく上回った。
モデルは、ストリートビュー画像からほぼ1億件のストリート番号をオペレーターレベルの精度で正しく変換し、複数の国でジオコーディングの品質を著しく向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。