QUICK REVIEW

[論文レビュー] Joint Line Segmentation and Transcription for End-to-End Handwritten Paragraph Recognition

Théodore Bluche|arXiv (Cornell University)|Apr 28, 2016

Handwritten Text Recognition Techniques参考文献 36被引用数 98

ひとこと要約

この論文は、標準MDLSTMの崩壊を注意機構ベースの加重崩壊に置換し、明示的な行セグメンテーションを必要とせず手書きの段落をエンドツーエンドで転写可能にすることで、IAMとRIMESデータセットで競争力のある結果を得る。

ABSTRACT

Offline handwriting recognition systems require cropped text line images for both training and recognition. On the one hand, the annotation of position and transcript at line level is costly to obtain. On the other hand, automatic line segmentation algorithms are prone to errors, compromising the subsequent recognition. In this paper, we propose a modification of the popular and efficient multi-dimensional long short-term memory recurrent neural networks (MDLSTM-RNNs) to enable end-to-end processing of handwritten paragraphs. More particularly, we replace the collapse layer transforming the two-dimensional representation into a sequence of predictions by a recurrent version which can recognize one line at a time. In the proposed model, a neural network performs a kind of implicit line segmentation by computing attention weights on the image representation. The experiments on paragraphs of Rimes and IAM database yield results that are competitive with those of networks trained at line level, and constitute a significant step towards end-to-end transcription of full documents.

研究の動機と目的

offline handwriting recognitionにおける明示的な行セグメンテーションへの依存を減らす動機付け。
attentionを介して行を暗黙的にセグメント化するエンドツーエンド段落転写モデルを提案。
MDLSTM-RNNに注意ベースの加重崩壊を組み込み、行を逐次読み取る。
BLSTMデコーダを活用しつつ、段落レベルのCTC損失でモデルを訓練。
IAMおよびRIMESの公開データセットで、行セグメント化されたベースラインと性能を比較評価。

提案手法

MDLSTM-RNNをエンコーダとして段落画像から2D特徴を抽出。
標準の垂直崩壊を、加重付き・注意駆動の崩壊に置換し、1行ずつ読み取る。
2D特徴マップ上の注意重みを計算して行特異的な加重和を形成。
行表現をデコードする（双方向）LSTMデコーダで、必要に応じて行出力を連結してからデコード。
段落レベルのCTC損失で訓練、必要に応じてBLSTMデコーダを使用。
固定数の読み取りステップの iterativereading と、変動する段落長に対する停止トークン予測のトレードオフを議論。

実験結果

リサーチクエスチョン

RQ1注意ベースMDLSTM機構を用いた明示的な行セグメンテーションなしで、エンドツーエンドの段落転写が実現できるか。
RQ2注意による暗黙的な行セグメンテーションは、グラウンドトゥルースの行セグメンテーションと比べて認識精度にどのように影響するか。
RQ3固定数の読み取りステップを用いることと、可変段落長に対して停止トークンを予測することのトレードオフは何か。
RQ4異なる解像度とセグメンテーション条件下で、標準データセット（IAM、RIMES）で提案手法はどのように機能するか。
RQ5全文書ページへの拡張を見据えた実用的な制限と今後の方向性は何か。

主な発見

注意ベースの加重崩壊は、標準崩壊およびソフトマックスベースの基準よりもCERを大幅に改善する。
IAMでは、BLSTMデコーダ付きの注意機構によりCERが大幅に低下（相対的改善が研究で報告されている）。
RIMESでは、注意モデルはCERを大幅に改善し、基準に対して大きな相対的利得を含む。
明示的な行セグメンテーションなしのエンドツーエンド段落転写は、行セグメントベースの手法と競争力がある。
入力解像度が高いほど、IAMとRIMESの両データセットで性能が向上する。
Languageモデルを用いても、真値の行セグメンテーションを必要とせず、多くのケースで競争的なWER/CERスコアを達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。