QUICK REVIEW

[論文レビュー] LPRNet: License Plate Recognition via Deep Neural Networks

S. V. Zherzdev, Alexey Gruzdev|arXiv (Cornell University)|Jun 27, 2018

Vehicle License Plate Recognition参考文献 19被引用数 112

ひとこと要約

LPRNet はセグメンテーションを用いないエンドツーエンドのライトウェイト CNN を用いたリアルタイム車両番号認識システムを導入し、中国のプレートで最大 95% の精度を達成、RNN を用いない。

ABSTRACT

This paper proposes LPRNet - end-to-end method for Automatic License Plate Recognition without preliminary character segmentation. Our approach is inspired by recent breakthroughs in Deep Neural Networks, and works in real-time with recognition accuracy up to 95% for Chinese license plates: 3 ms/plate on nVIDIA GeForce GTX 1080 and 1.3 ms/plate on Intel Core i7-6700K CPU. LPRNet consists of the lightweight Convolutional Neural Network, so it can be trained in end-to-end way. To the best of our knowledge, LPRNet is the first real-time License Plate Recognition system that does not use RNNs. As a result, the LPRNet algorithm may be used to create embedded solutions for LPR that feature high level accuracy even on challenging Chinese license plates.

研究の動機と目的

歪み、照明、視点変化に頑強な高速なセグメンテーションフリーの車両番号認識システムを動機づける。
再帰的ネットワークを用いず、エンドツーエンド認識が可能な軽量 CNN バックボーンを開発する。
CTC 損失を用いたエンドツーエンド学習を可能にし、さまざまなハードウェア（CPU、GPU、FPGA）への展開を検討する。
難易度の高い中国の車両番号プレートでの頑健性を実証し、寄与要因を特定するアブレーション研究を行う。

提案手法

SqueezeNet および Inception ブロックにインスピレーションを得た軽量 CNN バックボーンを設計し、前方伝播ごとの GFLOPs を低く抑える。
入力アラインメントのための Spatial Transformer Network（オプション）を組み込む。
画像の幅に沿った確率のシーケンスを生成する位置ごとの文字分類ヘッドを使用する。
可変長・未セグメントの出力を扱うために CTC 損失で訓練する。
デコード前にグローバルコンテキスト埋め込みを追加して精度を向上させる。
ビームサーチ中に出力を制約するため、国固有のテンプレートを用いたポストフィルタリングを適用する。

実験結果

リサーチクエスチョン

RQ1完全に畳み込みのみの非 RNN アーキテクチャは、事前セグメンテーションなしで車両番号認識に対して競争力のある精度を達成できるか。
RQ2グローバルコンテキスト、データ拡張、STN アラインメント、ビームサーチ、ポストフィルタリングが認識精度に与える影響はどの程度か。
RQ3LPRNet は課題の多い中国の車両番号プレートに対して CPU、GPU、FPGA ハードウェアでリアルタイムにどの程度性能を発揮するか。

主な発見

方法	認識精度（％）	GFLOPs
LPRNet baseline	94.1	0.71
LPRNet basic	95.0	0.34
LPRNet reduced	94.0	0.163

LPRNet ベースラインは 94.1% の認識精度で 0.71 GFLOPs。
LPRNet basic は 95.0% の精度で 0.34 GFLOPs。
LPRNet reduced は 94.0% の精度で 0.163 GFLOPs。
グローバルコンテキスト拡張は大きな精度向上をもたらす（ベースラインより最大で 36 ポイントの増分）。
データ拡張は精度を約 28.6 ポイント改善。
ビームサーチとポストフィルタリングは追加で 0.4–0.6 ポイントの利得を提供。
ネットワークはリアルタイムで動作：GTX 1080 で 1 枚あたり 3 ms、Intel Core i7-6700K CPU で 1 枚あたり 1.3 ms、FPGA パスで 4 ms。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。