Skip to main content
QUICK REVIEW

[論文レビュー] ICDAR 2015 Text Reading in the Wild Competition

Xinyu Zhou, Shuchang Zhou|arXiv (Cornell University)|Jun 10, 2015
Handwritten Text Recognition Techniques参考文献 11被引用数 24
ひとこと要約

本論文は、実際の自然画像に中国語および英語の両方を含む大規模かつ多言語のデータセットを特徴とする、ICDAR 2015 年「Text Reading in the Wild」コンペティションを提示する。テキスト検出と認識手法の評価には、ポリゴンベースの局所化と大文字・小文字を区別する正規化編集距離が用いられ、優れた手法ですら現実世界の耐障害性にほど遠いことが示され、深層学習フレームワークを用いた多言語のシーンテキストシステムの改善が求められていることを強調している。

ABSTRACT

Recently, text detection and recognition in natural scenes are becoming increasing popular in the computer vision community as well as the document analysis community. However, majority of the existing ideas, algorithms and systems are specifically designed for English. This technical report presents the final results of the ICDAR 2015 Text Reading in the Wild (TRW 2015) competition, which aims at establishing a benchmark for assessing detection and recognition algorithms devised for both Chinese and English scripts and providing a playground for researchers from the community. In this article, we describe in detail the dataset, tasks, evaluation protocols and participants of this competition, and report the performance of the participating methods. Moreover, promising directions for future research are discussed.

研究の動機と目的

  • 複雑な現実世界のシーンにおいて、特に中国語および英語の文字体系を対象とした多言語テキスト検出および認識のベンチマークを確立すること。
  • 既存のデータセットおよびアルゴリズムの限界に対処すること。これらは主に英語に焦点を当てており、実際の画像の複雑さの多様性に欠けている。
  • 大規模かつ公開可能なデータセットと標準化された評価プロトコルを提供することで、多言語のシーンテキスト理解分野における研究関心および開発を促進すること。
  • 非プロフェッショナルに撮影された画像に含まれる透明なテキストや多言語テキストを含む、困難な状況下での最先端手法の性能を評価すること。

提案手法

  • データセットは約1000枚の実際の自然画像から構成され、うち500枚が学習/検証用、484枚がテスト用であり、すべてのテキストラインがポリゴン境界でアノテーションされている。
  • テキスト検出は、従来の長方形ベースのIoUに代わり、不規則なテキスト形状に対応するためにポリゴンの重複面積を用いて評価される。
  • テキスト認識は、切り出し済みの単語画像に対して大文字・小文字を区別する正規化編集距離を用い、参加者が境界ボックスのアノテーションを用いて切り出しを行うことを許可している。
  • Stradvisionの手法は、極値領域を用いて文字候補を抽出し、その後、分類器とテキストパッチマッチングを用いて文字をテキスト領域にグループ化する。
  • CASIA_NLPRの手法は、YIQ色空間でテキスト連結成分を抽出し、OTSU二値化とチャネル別分類器を用い、最適なチャネルを選択して最終的なテキスト検出を行う。
  • 認識のため、CASIA_NLPRは968次元の特徴量を用いた過剰分割と統計的言語モデルを用い、語彙なしの単語認識を実現した後、大文字小文字の補正と文字のフィルタリングを実施している。

実験結果

リサーチクエスチョン

  • RQ1既存のテキスト検出および認識アルゴリズムは、中国語および英語の両方を含む多言語の実際の自然シーン画像において、どの程度の性能を示すか?
  • RQ2現在の手法は、透明なテキスト、照明の変動、不均一な背景といった困難な状況をどの程度適切に処理できるか?
  • RQ3不規則なテキストシナリオにおいて、従来の長方形バウンディングボックスに代えてポリゴンベースの評価が、検出性能の評価をどのように改善できるか?
  • RQ4大規模かつ多様な実際のデータセット上で、ベースラインのオンラインサービスと先進的手法との間には、どの程度の性能ギャップが存在するか?
  • RQ5複雑で多言語のシーンテキストシナリオにおいて、検出および認識の精度を向上させるために重要な技術的要素は何か?

主な発見

  • Stradvisionの手法は、テキストの局所化においてF-measure 0.759を達成し、ベースライン手法(0.457)を著しく上回り、不規則なテキスト形状に対する耐障害性の向上が示された。
  • CASIA_NLPRの手法は、テキスト認識で正規化編集距離0.279を達成し、ベースライン(0.735)を著しく上回り、単語レベル認識において優れた性能を示した。
  • ベンチマーク上で高い性能を示したにもかかわらず、両手法とも現実世界の応用要件を満たせておらず、さらなる改善の余地が広く存在することが示された。
  • 透明なテキスト、多言語コンテンツ、非プロフェッショナルな画像ソースを含むデータセットの多様性は、現在のアルゴリズムにとって顕著な課題をもたらしている。
  • 深層学習フレームワークが大規模データとシーン固有の特徴を活用することで、耐障害性のある多言語のシーンテキスト理解を達成する上で不可欠であると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。