QUICK REVIEW

[논문 리뷰] Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks

Ian Goodfellow, Yaroslav Bulatov|arXiv (Cornell University)|2013. 12. 20.

Handwritten Text Recognition Techniques인용 수 435

한 줄 요약

이 논문은 스트리트 뷰 이미지에서 다중 숫자를 직접 엔드 투 엔드로 국소화, 분할 및 인식하는 딥 컨volution 신경망을 제안하며, 각 숫자 인식에서 97.84%의 정확도와 전체 스트리트 번호 인식에서 96% 이상의 정확도를 달성하고, 가장 어려운 reCAPTCHA 퍼즐에서 99.8%의 정확도를 기록하여 핵심 과제에서 인간 수준의 성능을 입증한다.

ABSTRACT

Recognizing arbitrary multi-character text in unconstrained natural photographs is a hard problem. In this paper, we address an equally hard sub-problem in this domain viz. recognizing arbitrary multi-digit numbers from Street View imagery. Traditional approaches to solve this problem typically separate out the localization, segmentation, and recognition steps. In this paper we propose a unified approach that integrates these three steps via the use of a deep convolutional neural network that operates directly on the image pixels. We employ the DistBelief implementation of deep neural networks in order to train large, distributed neural networks on high quality images. We find that the performance of this approach increases with the depth of the convolutional network, with the best performance occurring in the deepest architecture we trained, with eleven hidden layers. We evaluate this approach on the publicly available SVHN dataset and achieve over $96\%$ accuracy in recognizing complete street numbers. We show that on a per-digit recognition task, we improve upon the state-of-the-art, achieving $97.84\%$ accuracy. We also evaluate this approach on an even more challenging dataset generated from Street View imagery containing several tens of millions of street number annotations and achieve over $90\%$ accuracy. To further explore the applicability of the proposed system to broader text recognition tasks, we apply it to synthetic distorted text from reCAPTCHA. reCAPTCHA is one of the most secure reverse turing tests that uses distorted text to distinguish humans from bots. We report a $99.8\%$ accuracy on the hardest category of reCAPTCHA. Our evaluations on both tasks indicate that at specific operating thresholds, the performance of the proposed system is comparable to, and in some cases exceeds, that of human operators.

연구 동기 및 목표

비구속적인 스트리트 레벨 이미지에서 다중 숫자의 국소화, 분할 및 인식을 통합하는 엔드 투 엔드 시스템을 개발하기 위해.
국소화와 분할을 별도의 단계로 나누는 전통적인 파이프라인 기반 접근 방식을 개선하기 위해, 이를 제거하는 것.
SVHN 데이터셋과 수백만 건의 애너테이션을 포함한 대규모 스트리트 뷰 데이터셋을 포함한 실제 세계 데이터셋에서 모델의 성능을 평가하기 위해.
reCAPTCHA 퍼즐에 적용하여 모델이 합성적이고 왜곡된 텍스트로의 일반화 능력을 평가하기 위해.
딥 아키텍처가 복잡한 실제 세계 OCR 과제에서 인간 수준의 성능을 달성할 수 있는지 확인하기 위해.

제안 방법

원시 픽셀 데이터에 대해 엔드 투 엔드로 훈련된 11개의 은닉층을 가진 딥 컨volution 신경망을 사용하여, 이미지를 숫자 시퀀스로 직접 매핑한다.
시퀀스를 조건부 독립적인 숫자로 모델링하고, 시퀀스 예측을 위한 확률적 프레임워크를 사용하는 새로운 출력 레이어를 사용한다.
대규모 분산 신경망을 여러 머신에 걸쳐 스케일링하기 위해 DistBelief 프레임워크를 사용하여 훈련을 수행한다.
계층적 특징 학습을 활용하여, 초기 레이어는 국소화 및 분할을 수행하고, 더 깊은 레이어는 인식에 집중한다.
최대 길이 N까지 변동 가능한 길이의 시퀀스를 처리하도록 설계되었으며, 각 숫자는 별도의 가중치 행렬을 사용하여 분류된다.
더 긴 시퀀스에 대한 통계적 효율성을 향상시키기 위해 슬라이딩 윈도우 디코딩 전략을 탐색한다.

실험 결과

연구 질문

RQ1비구속적인 스트리트 레벨 영상에서 다중 숫자의 국소화, 분할 및 인식을 효과적으로 수행할 수 있는 딥 컨volution 신경망이 가능한가?
RQ2얕은 아키텍처에 비해 네트워크 깊이를 늘임으로써 다중 숫자 인식 성능에 상당한 향상이 이루어지는가?
RQ3통합된 딥 러닝 모델이 왜곡된 reCAPTCHA 퍼즐과 같은 도전적인 OCR 과제에서 인간 수준의 성능을 달성할 수 있는가?
RQ4모델 성능이 단순히 파rameter 수가 아니라 네트워크의 깊이와 표현 능력에 얼마나 의존하는가?
RQ5모델은 수백만 건의 애너테이션을 포함한 대규모 실제 세계 데이터셋에 어떻게 스케일링되는가?

주요 결과

모델은 각 숫자 인식 과제에서 97.84%의 정확도를 달성하여 당시 최고 성능을 초월한다.
SVHN 데이터셋을 사용한 전체 스트리트 번호 인식 과제에서는 96% 이상의 정확도를 기록한다.
수백만 건의 애너테이션을 포함한 스트리트 뷰 영상에서 유래한 대규모 데이터셋에서는 90% 이상의 정확도를 달성한다.
가장 어려운 reCAPTCHA 퍼즐 카테고리에서는 99.8%의 전사 정확도를 기록하여 특정 운영 임계값에서 인간 수준 성능을 초월한다.
네트워크 깊이가 증가할수록 성능이 향상되며, 더 깊은 아키텍처는 과적합 문제를 야기하는 더 넓은 얕은 모델보다 상당히 뛰어난 성능을 보인다.
모델은 운영자 수준의 정확도로 스트리트 뷰 영상에서 약 1억 건의 스트리트 번호를 성공적으로 전사하였으며, 여러 국가에서 지오코딩 품질을 크게 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.