[論文レビュー] Efficient Backbone Search for Scene Text Recognition.
本稿では、ドメイン固有の探索空間と2段階の探索アルゴリズムを用いて、データに依存するバックボーンを設計する、シーンテキスト認識のための自動ニューラルアーキテクチャ探索フレームワークであるAutoSTRを提案する。演算子とダウンサンプリングパスの探索を分離することで、標準ベンチマーク上でのFLOPSとパラメータ数を著しく削減しつつ、最先端の精度を達成する。
Scene text recognition (STR) is very challenging due to the diversity of text instances and the complexity of scenes. The community has paid increasing attention to boost the performance by improving the pre-processing image module, like rectification and deblurring, or the sequence translator. However, another critical module, i.e., the feature sequence extractor, has not been extensively explored. In this work, inspired by the success of neural architecture search (NAS), which can identify better architectures than human-designed ones, we propose automated STR (AutoSTR) to search data-dependent backbones to boost text recognition performance. First, we design a domain-specific search space for STR, which contains both choices on operations and constraints on the downsampling path. Then, we propose a two-step search algorithm, which decouples operations and downsampling path, for an efficient search in the given space. Experiments demonstrate that, by searching data-dependent backbones, AutoSTR can outperform the state-of-the-art approaches on standard benchmarks with much fewer FLOPS and model parameters.
研究の動機と目的
- シーンテキスト認識(STR)における特徴シーケンス抽出器の未だ十分に探査されていない役割に対処すること。
- 人間が設計したアーキテクチャを上回るデータに依存するバックボーンを自動的に探索する手法を開発すること。
- FLOPSとモデルパラメータを最小限に抑えることで、STRにおける計算コストを低減すること。
- シーンテキスト認識の独自の課題に適合したドメイン固有の探索空間を設計すること。
提案手法
- STRに特化した探索空間を設計し、演算子の選択とダウンサンプリングパスへの制約を含める。
- 演算子とダウンサンプリングパスの探索を分離することで、探索効率を向上させる2段階の探索アルゴリズムを提案する。
- 定義された探索空間内でアーキテクチャを最適化するための微分可能探索戦略を用いる。
- 標準的なシーンテキスト認識ベンチマークで探索されたアーキテクチャを訓練・評価し、性能を検証する。
- 知識蒸留を適用して、精度を損なわずに最終モデルの効率性を向上させる。
実験結果
リサーチクエスチョン
- RQ1自動化されたニューラルアーキテクチャ探索は、人間が設計したものよりも優れたバックボーンを、シーンテキスト認識で効果的に発見できるか?
- RQ2演算子とダウンサンプリングパスの探索を分離することで、STRにおける効率性と性能はどのように向上するか?
- RQ3データに依存するアーキテクチャ探索は、STRにおけるFLOPSとモデルパラメータの削減にどのような影響を与えるか?
- RQ4提案手法は、標準的なSTRベンチマークで最先端の性能を達成できるか?
主な発見
- AutoSTRは、標準的なシーンテキスト認識ベンチマークで最先端の精度を達成し、既存の手法を上回る。
- 先行のSOTAモデルと比較して、AutoSTRのバックボーンはFLOPSを著しく削減している。
- AutoSTRのモデルパラメータは、最先端のアプローチと比較して顕著に少ないため、より高い効率性を示している。
- 2段階の探索アルゴリズムにより、性能を損なわせることなく、探索空間の効率的な探索が可能になった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。