[논문 리뷰] Robust Scene Text Recognition with Automatic Rectification
이 논문은 공간 변환망(Spatial Transformer Network, STN)을 사용하여 비정상적인 텍스트를 자동으로 정규화하고, 어텐션 기반 순차 인식망(Sequence Recognition Network, SRN)을 통해 텍스트를 인식하는 딥러닝 모델인 RARE를 제안한다. 이 모델은 투명판-스플라인(Thin-Plate-Spline, TPS) 변환을 적용한 STN를 통해 텍스트를 정규화한 후, 인식 성능을 향상시킨다. 엔드 투 엔드로 훈련 가능한 이 모델은 SVT-Perspective 및 CUTE80와 같은 벤치마크에서 최신 기준 성능을 달성하며, 기하학적 진짜값(ground truth)이 없이도 기울기나 굴곡진 텍스트에서 인식 정확도를 크게 향상시킨다.
Recognizing text in natural images is a challenging task with many unsolved problems. Different from those in documents, words in natural images often possess irregular shapes, which are caused by perspective distortion, curved character placement, etc. We propose RARE (Robust text recognizer with Automatic REctification), a recognition model that is robust to irregular text. RARE is a specially-designed deep neural network, which consists of a Spatial Transformer Network (STN) and a Sequence Recognition Network (SRN). In testing, an image is firstly rectified via a predicted Thin-Plate-Spline (TPS) transformation, into a more "readable" image for the following SRN, which recognizes text through a sequence recognition approach. We show that the model is able to recognize several types of irregular text, including perspective text and curved text. RARE is end-to-end trainable, requiring only images and associated text labels, making it convenient to train and deploy the model in practical systems. State-of-the-art or highly-competitive performance achieved on several benchmarks well demonstrates the effectiveness of the proposed model.
연구 동기 및 목표
- 자연 풍경에서의 비정상적인 텍스트, 예를 들어 기울기나 굴곡진 텍스트를 인식하는 데 어려움을 겪는 표준 OCR 시스템의 과제를 해결하기 위해.
- 기하학적 변환의 수동 애너테이션 없이도 비정상적인 텍스트를 더 읽기 쉽게 정규화하는 방법을 개발하기 위해.
- 이미지와 텍스트 레이블만으로도 정규화와 인식을 동시에 최적화할 수 있도록 엔드 투 엔드 훈련이 가능한 인식 시스템을 구현하기 위해.
- 특히 어휘사전 기반 및 전체 어휘사전 설정에서 어려운 벤치마크인 SVT-Perspective 및 CUTE80에서의 인식 성능 향상시키기 위해.
제안 방법
- 모델은 공간 변환망(STN)과 순차 인식망(SRN)을 조합하며, STN이 입력 이미지에 대해 미분 가능한 TPS 변환을 적용하여 정규화한다.
- STN은 CNN을 통해 기준점(fiducial point) 좌표를 추정하여, 비정상적인 텍스트를 더 정규화된 수평 레이아웃으로 매핑하는 TPS 변환을 생성한다.
- SRN은 어텐션 메커니즘을 갖춘 인코더-디코더 아키텍처를 사용하여, 정규화된 특징 맵에서 문자의 순차적 시퀀스로 텍스트를 인식한다.
- 전체 네트워크는 역전파를 통해 엔드 투 엔드로 훈련되며, SRN의 손실에서 유도된 기울기가 기하학적 진짜값이 없는 상태에서 STN의 변환 매개변수를 지도하는 데 사용된다.
- STN은 텍스트 라인을 더 직선적이고 읽기 쉽게 정렬할 수 있는 최적의 기준점을 예측함으로써 인식 성능을 향상시킨다.
- SRN의 인코더는 합성곱-순환 구조를 활용하여 어텐션 기반 디코딩을 위한 효과적인 순차적 특징 표현을 가능하게 한다.
실험 결과
연구 질문
- RQ1딥러닝 모델이 기울기나 굴곡진 텍스트와 같은 비정상적인 시나리오 텍스트를 표준 인식 모델이 사용할 수 있는 형태로 자동으로 정규화할 수 있는가?
- RQ2기하학적 지도 없이도 이미지와 텍스트 레이블 쌍만으로도 정규화 및 인식 시스템을 엔드 투 엔드로 훈련시킬 수 있는가?
- RQ3미분 가능한 STN와 어텐션 기반 순차 인식기의 통합이 이전 방법에 비해 비정상적인 텍스트의 인식 정확도를 향상시키는가?
- RQ4SVT-Perspective 및 CUTE80와 같은 도전적인 텍스트 형태를 가진 벤치마크에서, 특히 어휘사전 기반 설정이 아닌 경우 모델의 성능은 어떠한가?
주요 결과
- SVT-Perspective 데이터셋에서 RARE는 50개 단어의 어휘사전을 사용할 경우 91.2%의 정확도를 기록했으며, 어휘사전 없이도 77.4%의 정확도를 달성하여 이전 최고 성능 모델을 능가했다.
- 굴곡진 텍스트에 특화된 CUTE80 데이터셋에서는 어휘사전 기반 설정이 아닌 경우 59.2%의 정확도를 기록했으며, [17]의 42.7%와 [32]의 54.9%를 모두 초월했다.
- 강한 왜곡이 있는 기울기 텍스트에서 인식 정확도가 크게 향상되었으며, 이는 정규화 메커니즘이 왜곡의 영향을 완화시켰기 때문이다.
- 정성적 결과를 통해 STN이 텍스트 경계에 따라 기준점을 효과적으로 예측하고, SRN이 더 읽기 쉽게 정규화된 이미지를 생성하는 것으로 나타났다.
- 특정 유형에 맞추어 설계된 전용 모델이 없이도 다양한 비정상적인 텍스트 유형, 특히 기울기와 굴곡진 텍스트에 대해 뛰어난 강건성을 보였다.
- 극단적인 왜곡에서는 일부 실패가 있었지만, 엔드 투 엔드 훈련 방식 덕분에 인식 손실의 역전파를 통해 STN이 정규화를 암묵적으로 효과적으로 학습할 수 있었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.