QUICK REVIEW

[논문 리뷰] LPRNet: License Plate Recognition via Deep Neural Networks

S. V. Zherzdev, Alexey Gruzdev|arXiv (Cornell University)|2018. 06. 27.

Vehicle License Plate Recognition참고 문헌 19인용 수 112

한 줄 요약

LPRNet은 엔드투엔드식의 세그먼트-프리 라이선스 플레이트 인식 시스템을 도입합니다. 경량 CNN으로 실시간 실행되며 중국 번호판에서 최대 95%의 정확도에 도달하고 RNN은 사용하지 않습니다.

ABSTRACT

This paper proposes LPRNet - end-to-end method for Automatic License Plate Recognition without preliminary character segmentation. Our approach is inspired by recent breakthroughs in Deep Neural Networks, and works in real-time with recognition accuracy up to 95% for Chinese license plates: 3 ms/plate on nVIDIA GeForce GTX 1080 and 1.3 ms/plate on Intel Core i7-6700K CPU. LPRNet consists of the lightweight Convolutional Neural Network, so it can be trained in end-to-end way. To the best of our knowledge, LPRNet is the first real-time License Plate Recognition system that does not use RNNs. As a result, the LPRNet algorithm may be used to create embedded solutions for LPR that feature high level accuracy even on challenging Chinese license plates.

연구 동기 및 목표

왜곡, 조명 및 시점 변화에 강한 빠른 세그먼트 없는 번호판 인식 시스템의 필요성을 제시한다.
순환 네트워크 없이 엔드투엔드 인식이 가능한 경량 CNN 백본을 개발한다.
CTC 손실로 엔드투엔드 학습을 가능하게 하고, 다양한 하드웨어(CPU, GPU, FPGA) 배치를 탐색한다.
도전적인 중국 번호판에서의 견고성을 입증하고, 기여 요인을 분리하기 위한 ablation 연구를 수행한다.

제안 방법

전달당 GFLOPs를 낮추는 경량 CNN 백본을 SqueezeNet 및 Inception 블록에서 영감을 받아 설계한다.
입력 정렬을 위한 Spatial Transformer Network(STN, 선택적)를 도입한다.
이미지 너비에 걸친 확률 시퀀스를 생성하는 위치별 문자 분류 헤드를 사용한다.
가변 길이의 비세그먼트 출력 처리를 위해 CTC 손실로 학습한다.
정확도 향상을 위해 디코딩 전에 글로벌 컨텍스트 임베딩을 보강한다.
빔 탐색 중 국가별 템플릿을 사용한 포스트 필터링 단계를 적용하여 출력에 제약을 둔다.

실험 결과

연구 질문

RQ1사전 세그먼트화 없이 완전 컨볼루셔널하며 비-RNN 아키텍처가 번호판 인식에 경쟁력 있는 정확도를 달성할 수 있는가?
RQ2글로벌 컨텍스트, 데이터 증강, STN 정렬, 빔 탐색 및 포스트 필터링이 인식 정확도에 미치는 영향은 무엇인가?
RQ3도전적인 중국 번호판에서 CPU, GPU, FPGA 하드웨어에서 LPRNet이 실시간으로 어떻게 성능을 보이는가?

주요 결과

방법	인식 정확도 (%)	GFLOPs
LPRNet baseline	94.1	0.71
LPRNet basic	95.0	0.34
LPRNet reduced	94.0	0.163

LPRNet baseline은 0.71 GFLOPs에서 94.1% 인식 정확도를 달성한다.
LPRNet basic은 0.34 GFLOPs에서 95.0% 정확도를 달성한다.
LPRNet reduced는 0.163 GFLOPs에서 94.0% 정확도를 달성한다.
전역 컨텍스트 보강은 큰 정확도 향상을 가져와(기본값 대비 최대 36%포인트).
데이터 증강으로 정확도가 약 28.6%포인트 증가한다.
빔 탐색과 포스트 필터링의 추가로 0.4–0.6% 포인트의 이득이 있다.
네트워크는 실시간으로 실행되며: GTX 1080에서 번호판당 3 ms, Intel Core i7-6700K CPU에서 번호판당 1.3 ms, FPGA 경로에서 4 ms.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.