Skip to main content
QUICK REVIEW

[論文レビュー] ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)

Baoguang Shi, Cong Yao|arXiv (Cornell University)|Aug 31, 2017
Handwritten Text Recognition Techniques参考文献 7被引用数 27
ひとこと要約

本論文はICDAR2017 RCTW-17コンペティションを提示し、自然画像12,263枚に注釈された中国語テキストラインを含む大規模データセットを導入した。ポリゴンベースの検出を用いたテキスト局所化とエンドツーエンド認識の2つのタスクを提案し、Faster R-CNN や CRNN といった高度なディープラーニングモデルを用いて、屋外の中国語テキストに特化した新しいベンチマークで最先端の性能を達成した。

ABSTRACT

Chinese is the most widely used language in the world. Algorithms that read Chinese text in natural images facilitate applications of various kinds. Despite the large potential value, datasets and competitions in the past primarily focus on English, which bares very different characteristics than Chinese. This report introduces RCTW, a new competition that focuses on Chinese text reading. The competition features a large-scale dataset with 12,263 annotated images. Two tasks, namely text localization and end-to-end recognition, are set up. The competition took place from January 20 to May 31, 2017. 23 valid submissions were received from 19 teams. This report includes dataset description, task definitions, evaluation protocols, and results summaries and analysis. Through this competition, we call for more future research on the Chinese text reading problem. The official website for the competition is http://rctw.vlrlab.net

研究の動機と目的

  • 英語とは文字セットのサイズ、単語区切りの方法、視覚的構造の面で顕著に異なる中国語の屋外テキスト読み取りの分野において、大規模かつ正確に注釈されたデータセットが不足しているという課題に対処すること。
  • 中国語テキスト固有の課題に適合した標準化された評価プロトコルを備えたコンペティションを主催することで、中国語テキスト読み取り分野の研究を促進すること。
  • 自然画像に含まれる中国語テキストにおけるテキスト局所化およびエンドツーエンド認識のベンチマークを確立し、実世界に適応可能な強力なモデルの開発を促進すること。
  • 長文テキストラインの欠落や類似文字の誤分類といった、検出および認識における一般的な失敗モードを分析し、今後の研究を導くこと。

提案手法

  • 12,263枚の自然画像とデジタルソースからの画像を含む、CTW-12k と名付けられた大規模データセットを収集し、テキストラインはポリゴンとUTF-8変換文で注釈された。
  • テキスト局所化にはポリゴンベース検出を実施し、予測されたポリゴンと正解ポリゴンの重複度をShapelyライブラリを用いて交差率(IoU)で評価した。
  • 検出タスクでは、バックボーンにResNet-101を用い、トップダウンパスウェイからの特徴マッピングを統合した改良版Faster R-CNNを採用し、小規模なテキストの検出性能を向上させた。
  • エンドツーエンド認識には、畳み込み層と双方向LSTM層を有するCRNNベースのモデルを用い、事前に文字レベルの注釈が不要なCTC損失関数を用いてシーケンス変換を実現した。
  • ベースライン手法として、検出にはSegLink、認識には改良版CRNNを採用し、大規模な合成中国語語彙データセットで事前学習した。
  • 評価にはmAP(平均適合率)を用い、IoU閾値は0.5とした。可視化および分析のため、Fスコアを最大化する信頼度閾値を用いて結果をフィルタリングした。

実験結果

リサーチクエスチョン

  • RQ1既存のオブジェクト検出フレームワークは、自然画像における不規則的で長い、および小さな中国語テキストラインをどの程度効果的に検出できるか?
  • RQ2視覚的歪みや文字の類似性に起因する主な失敗モードは何か、特に中国語テキストの局所化および認識において?
  • RQ3実世界の状況において、テキスト局所化の品質がエンドツーエンド認識性能にどの程度影響を及えるか?
  • RQ4合成データで学習したエンドツーエンドモデルは、実世界の多様な中国語屋外テキストに効果的に一般化できるか?
  • RQ5標準的な検出アーキテクチャでは、大きなアスペクト比や断片的なレイアウトを持つテキストを検出するにあたり、どのような主な課題が生じるか?

主な発見

  • コンペティションには19チームが有効な結果を提出し、中国語テキスト読み取りの分野に強い関心が集まっていることが示されたが、その独自の課題にもかかわらず。
  • デジタル由来の画像では自然画像よりも検出性能が顕著に優れており、背景が綺麗でフォントが単純なためである。
  • 一般的な失敗モードとして、長文テキストラインの不完全な検出が見られ、特にアスペクト比の高い領域での一般化能力の不足により、断片的または部分的な検出が生じた。
  • リコールを最大化するために、低信頼度の重複検出が頻繁に提出されたが、標準的な非最大抑制(NMS)では、小さな重複する偽陽性を適切に抑制できなかった。
  • 正確な局所化が行われても、視覚的歪みや類似した中国語文字の混同により、認識性能が著しく低下した。
  • ベースライン手法は検出タスクでmAP 0.781、認識タスクで正答率 0.821 を達成し、今後のモデル開発の強力な基準点となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。