QUICK REVIEW

[論文レビュー] Real-time Scene Text Detection with Differentiable Binarization

Minghui Liao, Zhaoyi Wan|arXiv (Cornell University)|Nov 20, 2019

Handwritten Text Recognition Techniques参考文献 40被引用数 48

ひとこと要約

この論文は Differentiable Binarization (DB) を導入し、二値化をセグメンテーションネットワークに組み込むことで、リアルタイムかつ任意の形状のシーン文字検出をエンドツーエンドで訓練可能にし、最先端の精度と速度を実現します。

ABSTRACT

Recently, segmentation-based methods are quite popular in scene text detection, as the segmentation results can more accurately describe scene text of various shapes such as curve text. However, the post-processing of binarization is essential for segmentation-based detection, which converts probability maps produced by a segmentation method into bounding boxes/regions of text. In this paper, we propose a module named Differentiable Binarization (DB), which can perform the binarization process in a segmentation network. Optimized along with a DB module, a segmentation network can adaptively set the thresholds for binarization, which not only simplifies the post-processing but also enhances the performance of text detection. Based on a simple segmentation network, we validate the performance improvements of DB on five benchmark datasets, which consistently achieves state-of-the-art results, in terms of both detection accuracy and speed. In particular, with a light-weight backbone, the performance improvements by DB are significant so that we can look for an ideal tradeoff between detection accuracy and efficiency. Specifically, with a backbone of ResNet-18, our detector achieves an F-measure of 82.8, running at 62 FPS, on the MSRA-TD500 dataset. Code is available at: https://github.com/MhLiao/DB

研究の動機と目的

irregular text shapes (curved, multi-oriented) に対するセグメンテーションベースのシーン文字検出を動機づける。
ネットワーク訓練に二値化を組み込み、重い後処理を排除する。
軽量のバックボーンでもリアルタイム推論を達成しつつ高い精度を維持する。
学習可能な閾値マップを介した適応的閾値処理を探索し、文字と背景の識別性を向上させる。

提案手法

Differentiable Binarization (DB) を提案し、適応的閾値マップ T を使用して微分可能な関数で二値化を近似する。
セグメンテーションネットワークを訓練して確率マップ P と閾値マップ T の両方を予測し、P と T から近似的なバイナリマップ B̂ を計算する。
DB 関数をバックプロパゲーションして文字と背景の分離を鮮明にし、近接して結合した文字を区別する。
不規則な文字形状の受容野を向上させるためにデフォルマブル畳み込みバックボーンを使用する。
P と T に対する監視を作成するため、ポリゴンの縮小/拡張操作を通じてトレーニングラベルを生成する。
推論時には効率のために閾値ブランチをオプションで捨て、確率マップまたは二値マップからボックスを形成する。
バックボーン（ResNet-18/50）、DB の有無、閾値監視、デフォルマブル畳み込みの影響をアブレーションして向上を定量化する。

実験結果

リサーチクエスチョン

RQ1セグメンテーションネットワークに微分可能な二値化ステップを組み込むと、任意の形状の文字検出精度は向上しますか？
RQ2適応的に学習される閾値処理は、固定閾値の二値化と比較して文字と背景の識別性を向上させますか？
RQ3提案する DB モジュールは、ResNet-18 のような軽量バックボーンと ResNet-50 のような重いバックボーンの速度と精度にどのように影響しますか？
RQ4DB を組み込んだエンドツーエンドの訓練は、複数のシーン文字ベンチマークでリアルタイム推論と適合しますか？

主な発見

DB は水平・多方向・曲線文字の五つのベンチマークで一貫した精度向上を提供する。
ResNet-18 を用いると MSRA-TD500 で 62 FPS を達成し、データセット間で高い F 値を示す。
推論時には DB を除去しても性能を犠牲にせず、速度を維持できる。
デフォルマブル畳み込みはバックボーンとデータセットに応じて 1.5–5.0 ポイントの F 値向上を追加する。
閾値マップの監視は追加の改善をもたらす（例：MLT-2017 で）。
DB-ResNet-50 は、曲線文字や多言語文字データセットで、先行手法に対して顕著な速度優位を保ちつつ、最先端または競合的な結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。