Skip to main content
QUICK REVIEW

[論文レビュー] COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images

Andreas Veit, Tomáš Matera|arXiv (Cornell University)|Jan 26, 2016
Handwritten Text Recognition Techniques被引用数 237
ひとこと要約

COCO-Text は自然画像中のテキスト検出・認識のための大規模で豊富に注釈されたデータセットを導入し、注釈を転写だけでなく可読性、書字体系、テキスト種別を含むように拡張し、最先端の写真OCR手法をこのデータで評価する。

ABSTRACT

This paper describes the COCO-Text dataset. In recent years large-scale datasets like SUN and Imagenet drove the advancement of scene understanding and object recognition. The goal of COCO-Text is to advance state-of-the-art in text detection and recognition in natural images. The dataset is based on the MS COCO dataset, which contains images of complex everyday scenes. The images were not collected with text in mind and thus contain a broad variety of text instances. To reflect the diversity of text in natural scenes, we annotate text with (a) location in terms of a bounding box, (b) fine-grained classification into machine printed text and handwritten text, (c) classification into legible and illegible text, (d) script of the text and (e) transcriptions of legible text. The dataset contains over 173k text annotations in over 63k images. We provide a statistical analysis of the accuracy of our annotations. In addition, we present an analysis of three leading state-of-the-art photo Optical Character Recognition (OCR) approaches on our dataset. While scene text detection and recognition enjoys strong advances in recent years, we identify significant shortcomings motivating future work.

研究の動機と目的

  • 自然シーンにおけるテキストの大規模で多様なデータセットを提供し、シーン文字検出・認識を前進させる。
  • テキストインスタンスを境界ボックスと細粒度属性(可読性、機械印刷 vs 手書き、書字体系)で注釈する。
  • データセット上で現状の最新の写真OCR手法を評価し、実世界の適用における残されたギャップを特定する。

提案手法

  • MS COCO の画像に対して複数段階のクラウドソーシング手順を用いてテキスト領域を注釈する。
  • 複数の写真OCRシステムと人間の注釈者からのOCR出力を取り入れてテキスト領域を検出・精練する。
  • 可読性、書字体系、タイプ(機械印刷、手書き、その他)でテキスト領域を分類する。
  • 可読テキストの転写を収集し、転写反復中に不可読テキストをフラグする。
  • 保持された検証セット上で ICDAR 風の評価指標を用いて検出、転写、エンドツーエンドの性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1大規模な MS COCO ベースのデータセットに注釈された自然シーンのテキストはどれくらい多様ですか?
  • RQ2クラウドワーカーと OCR システムが協力して、自然画像におけるさまざまなテキスト種別と可読性レベルを信頼性高く検出・分類できるか?
  • RQ3制約のないシーン文字に対する最先端の写真OCR手法の現在の限界は何か。特に不可読テキストと検出のリコールについて。
  • RQ4文脈(COCO のオブジェクト)は自然画像中のテキストの存在とどのように関連しますか?
  • RQ5実世界のシナリオで堅牢なエンドツーエンドのテキストスポッティングに近づくために、どのような改善が必要ですか?

主な発見

  • COCO-Text には境界ボックスと細粒度属性にわたる 173,589 のテキスト注釈を含む 63,686 枚の画像が含まれます。
  • COCO-Text の画像の約 50% はテキストを含まない一方、全体として画像あたり 2.73 のテキストインスタンス(テキストを含む画像では 5.46)。
  • テキスト属性には可読性(60.3% 可読、39.7% 不可読)、タイプ(機械印刷 vs 手書き)、書字体系(英語と英語でない)が含まれます。
  • 3 つの主要な写真OCRシステムは高い精度を達成したが、特に不可読テキストに対して検出のリコールが低く、依然として大きなギャップを浮き彫りにしています。
  • クラウド注釈者は全テキスト領域の 57% を検出し、可読テキストは 84%、不可読テキストは 39% で成功率が高かった。
  • エンドツーエンドの認識結果は可読な機械印刷および手書き英文字テキストに限定され、データセットの豊富さと現在のOCR能力とのギャップを強調しています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。