[論文レビュー] Text Recognition in the Wild: A Survey
シーンテキスト認識(STR)における包括的な調査で、基本的な問題、深層学習ベースの手法、データセット、評価プロトコル、および将来の方向性を詳述します。
The history of text can be traced back over thousands of years. Rich and precise semantic information carried by text is important in a wide range of vision-based application scenarios. Therefore, text recognition in natural scenes has been an active research field in computer vision and pattern recognition. In recent years, with the rise and development of deep learning, numerous methods have shown promising in terms of innovation, practicality, and efficiency. This paper aims to (1) summarize the fundamental problems and the state-of-the-art associated with scene text recognition; (2) introduce new insights and ideas; (3) provide a comprehensive review of publicly available resources; (4) point out directions for future work. In summary, this literature review attempts to present the entire picture of the field of scene text recognition. It provides a comprehensive reference for people entering this field, and could be helpful to inspire future research. Related resources are available at our Github repository: https://github.com/HCIILAB/Scene-Text-Recognition.
研究の動機と目的
- シーンテキスト認識(STR)における基本的な問題と課題を要約する。
- エンドツーエンドのSTRシステムとそのアーキテクチャ的変種をレビューする。
- STRの公開データセット、ベンチマーク、評価プロトコルを整理する。
- STRにおける深層学習の最近の進展を強調し、今後の方向性を議論する。
提案手法
- STRアプローチをセグメンテーションベースとセグメンテーションフリーのカテゴリに分類する。
- セグメンテーションフリーパイプラインにおける前処理、特徴表現、系列モデリング、および予測段階を説明する。
- 前処理支援としての整形、TextSR、背景除去を議論する。
- 手作り特徴から深層学習ベースの手法とエンドツーエンドシステムへの進化を要約する。
- 公開データセット、コード、ベースラインを含むリソース指向のレビューを提供する。
実験結果
リサーチクエスチョン
- RQ1シーンテキスト認識(ローカリゼーション、検証、検出、セグメンテーション、認識、エンドツーエンドシステム)に関与するコアな問題と段階、およびそれらの固有の課題は何か?
- RQ2深層学習とともにエンドツーエンドSTRシステムはどのように進化し、セグメンテーションベースとセグメンテーションフリーの手法の長所と限界は何か?
- RQ3STRの標準的なデータセット、ベンチマーク、評価プロトコルは何で、方法間でどのように比較されるか?
- RQ4精度と効率性の向上のために、STRには今後どのような方向性と未解決問題が残っているか?
主な発見
- 深層学習は自動特徴学習とエンドツーエンド最適化を可能にし、STRの性能を著しく向上させた。
- セグメンテーションフリー手法(エンコーダ-デコーダーアーキテクチャ)は、文字ごとのセグメンテーションを必要とせず、不規則なテキストの処理において顕著になっている。
- Rectification(整形)、TextSR、および背景/前景の前処理は、歪みやノイズの処理において、特に不規則なテキストで重要な前処理要素である。
- 多様なデータセットと評価プロトコルが存在し、リアルタイム性能、スケーラビリティ、背景の複雑さへの頑健性について継続的な議論がある。
- 本調査は公正な手法比較のためのベースラインを統合し、再現可能な研究のための公開リソースとコードリポジトリを指摘している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。