QUICK REVIEW

[논문 리뷰] 2D-CTC for Scene Text Recognition

Zhaoyi Wan, Fengming Xie|arXiv (Cornell University)|2019. 07. 23.

Handwritten Text Recognition Techniques참고 문헌 39인용 수 30

한 줄 요약

이 논문은 2D-CTC를 제안하며, 이는 연결주의 시계열 분류(CTC)의 확장으로, 장면 텍스트를 1D 시퀀스가 아니라 2D 확률 분포로 모델링함으로써 굴곡지거나 기울여진, 노이즈가 많은 텍스트를 더 잘 처리할 수 있도록 한다. 이는 정규 및 비정규 텍스트 벤치마크에서 최고 성능을 기록하면서도 높은 추론 속도를 유지하며, 기존의 CTC 및 어텐션 기반 방법들을 능가한다.

ABSTRACT

Scene text recognition has been an important, active research topic in computer vision for years. Previous approaches mainly consider text as 1D signals and cast scene text recognition as a sequence prediction problem, by feat of CTC or attention based encoder-decoder framework, which is originally designed for speech recognition. However, different from speech voices, which are 1D signals, text instances are essentially distributed in 2D image spaces. To adhere to and make use of the 2D nature of text for higher recognition accuracy, we extend the vanilla CTC model to a second dimension, thus creating 2D-CTC. 2D-CTC can adaptively concentrate on most relevant features while excluding the impact from clutters and noises in the background; It can also naturally handle text instances with various forms (horizontal, oriented and curved) while giving more interpretable intermediate predictions. The experiments on standard benchmarks for scene text recognition, such as IIIT-5K, ICDAR 2015, SVP-Perspective, and CUTE80, demonstrate that the proposed 2D-CTC model outperforms state-of-the-art methods on the text of both regular and irregular shapes. Moreover, 2D-CTC exhibits its superiority over prior art on training and testing speed. Our implementation and models of 2D-CTC will be made publicly available soon later.

연구 동기 및 목표

장면 텍스트의 2D 공간 분포를 고려하지 못하는 기존 CTC의 한계를 해결하기 위해, 장면 텍스트는 본질적으로 2차원이지만 1D 시퀀스로 압축되는 문제를 해결한다.
높이 차원을 따라 2D 확률 분포를 기반으로 CTC를 확장하여 텍스트 특징의 공간적 맥락을 유지한다.
굴곡지거나 기울여진, 방향이 정해지지 않은 텍스트와 같은 비정형 텍스트 형태의 인식 정확도를 향상시키기 위해 1D 시퀀스 모델이 잘 처리하지 못하는 문제를 해결한다.
2D-CTC 계산을 위한 효율적인 동적 프ogram밍 알고리즘을 설계하여 높은 추론 속도를 유지한다.
문자 수준의 애너테이션을 필요로 하지 않고도 어텐션 유사한 특징 집중 기능을 제공함으로써 중간 예측의 해석 가능성을 높인다.

제안 방법

CTC의 확률 분포에 높이 차원을 추가하여 1D에서 2D로 확장함으로써 시간과 높이 양쪽 차원에서 경로 탐색이 가능하도록 한다.
2D 분포에 대한 조건부 확률을 계산하는 데 CTC 손실 함수를 재구성하여 공간적 구조를 유지하고 노이즈 간섭을 줄인다.
효율적인 동적 프로그래밍을 사용하여 2D-CTC 손실을 빠르게 계산함으로써 추가된 차원에도 불구하고 시간 복잡도를 거의 무시할 수 있는 수준으로 낮춘다.
전체 컨볼루션 네트워크 아키텍처를 사용하여 엔드 투 엔드 훈련과 추론을 지원하며, 병렬 처리가 가능하고 높은 속도를 달성한다.
경로 전이 메커니즘을 도입하여 배경 잡음 등 불필요한 요소를 억제하면서도 관련 텍스트 특징에 자동으로 집중한다.
경계 상자 애너테이션을 필요로 하지 않고도 높이 차원에서 어텐션 유사 행동을 시각화함으로써 약한 감독 하에 문자 위치를 추정할 수 있도록 한다.

실험 결과

연구 질문

RQ1CTC를 두 번째 차원으로 확장함으로써 곡선지거나 비정형 텍스트에 대해 인식 정확도가 향상되는가?
RQ2텍스트 인식에서 2D 공간 분포를 모델링하면 1D 시퀀스 모델링 대비 배경 잡음과 혼잡함에 덜 민감한가?
RQ32D-CTC는 기존의 CTC 및 어텐션 기반 디코더보다 더 높은 정확도를 달성하면서도 추론 속도를 유지하거나 향상시킬 수 있는가?
RQ42D-CTC의 수식이 문자 위치 추정과 같은 해석 가능한 중간 예측을 얼마나 잘 가능하게 하는가? 특히 명시적 감독 없이도 가능한가?
RQ52D-CTC의 계산 비용은 어떻게 증가하며, 효율적인 동적 프로그래밍 알고리즘이 실세계 적용에 실용적이게 만들 수 있는가?

주요 결과

2D-CTC는 IIIT-5K, ICDAR 2015, SVP-Perspective, CUTE80 등 표준 벤치마크에서 최고 성능을 기록하며, CUTE80 및 Total-Text와 같은 비정형 텍스트 데이터셋에서 뚜렷한 향상이 있었다.
CUTE80 벤치마크에서 2D-CTC는 91.8%의 인식 정확도를 달성하여 이전 방법들을 능가했으며, 굴곡지거나 기울여진 텍스트에 대해 강력한 내성성을 보였다.
단일 GPU에서 36.22 FPS로 실행되어 어텐션 기반 ASTER 모델(11.35 FPS)보다 3~4배 더 빠르며, 뛰어난 추론 효율성을 입증했다.
동적 프로그래밍 알고리즘이 2D-CTC의 계산 오버헤드를 거의 무시할 수 있는 수준으로 낮춰, 차원이 증가했음에도 불구하고 실용적인 방법이 되도록 했다.
2D-CTC는 문자 위치와 방향의 근사치를 시각화함으로써 더 해석 가능한 예측을 생성했으며, 문자 수준의 애너테이션이 필요하지 않았다.
기존 CTC 및 2D 어텐션를 추가한 CTC보다도 일관되게 뛰어난 성능을 보이며, 2D-CTC 수식이 다른 어텐션 통합 전략보다 우월함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.