QUICK REVIEW

[논문 리뷰] 2D Attentional Irregular Scene Text Recognizer

Pengyuan Lyu, Zhicheng Yang|arXiv (Cornell University)|2019. 06. 13.

Handwritten Text Recognition Techniques참고 문헌 46인용 수 50

한 줄 요약

이 논문은 관계 주의 모듈과 병렬 주의 모듈을 활용해 2D 공간에서 비정형 장면 텍스트를 직접 인코딩/디코딩하는 2D 주의 기반 프레임워크를 제시하며, 여러 벤치마크에서 최첨단 성능과 더 빠른 추론을 달성한다.

ABSTRACT

Irregular scene text, which has complex layout in 2D space, is challenging to most previous scene text recognizers. Recently, some irregular scene text recognizers either rectify the irregular text to regular text image with approximate 1D layout or transform the 2D image feature map to 1D feature sequence. Though these methods have achieved good performance, the robustness and accuracy are still limited due to the loss of spatial information in the process of 2D to 1D transformation. Different from all of previous, we in this paper propose a framework which transforms the irregular text with 2D layout to character sequence directly via 2D attentional scheme. We utilize a relation attention module to capture the dependencies of feature maps and a parallel attention module to decode all characters in parallel, which make our method more effective and efficient. Extensive experiments on several public benchmarks as well as our collected multi-line text dataset show that our approach is effective to recognize regular and irregular scene text and outperforms previous methods both in accuracy and speed.

연구 동기 및 목표

보정이나 1D 변환 없이 불규칙한 2D 배열 텍스트의 견고한 인식을 촉진한다.
정확도 향상을 위해 2D 공간 정보를 보존하는 엔드-투-엔드 프레임워크를 개발한다.
전역 맥락을 포착하기 위한 2D 관계 주의 모듈을 도입한다.
여러 문자를 simultaneously 출력하기 위한 병렬 주의 모듈을 도입한다.
정규, 불규칙 및 다라인 텍스트 데이터셋에서 최첨단 성능과 효율성을 입증한다.

제안 방법

CNN 인코더로 입력을 인코딩하여 2D 특징 맵을 얻다.
평탄화된 특징 맵에서 전역 의존성을 포착하기 위해 2D 관계 주의 모듈(다중 계층 양방향 트랜스포머)을 적용한다.
2D 특징에서 병렬로 여러 인지 지점(glimpses)을 생성하기 위해 병렬 주의 모듈을 사용한다(출력 노드 n).
두 단계 디코더로 글림프를 해독한다: 1단계 디코더가 예비 문자를 예측하고, 2단계 디코더는 관계 주의 모듈을 사용하여 출력 간의 의존성을 모델링하고 예측을 정제한다.
두 디코더와 모든 출력 노드의 크로스 엔트로피를 합산하는 멀티태스크 손실로 엔드-투-엔드로 학습한다.

실험 결과

연구 질문

RQ12D 주의가 비정형의 2D 텍스트 배열에 직접 작동하여 보정이나 1D 평탄화 없이도 정확한 문자 시퀀스를 생성할 수 있는가?
RQ2관계 주의와 병렬 주의가 비정형 및 다라인 텍스트 인식에서 강건성과 효율성을 향상시키는가?
RQ3제안된 방법이 정규 및 비정규 데이터셋, 그리고 번호판 같은 다라인 텍스트에서 어떻게 성능을 발휘하는가?
RQ4두 번째 단계의 디코더와 변환기 층 수가 인식 정확도에 미치는 영향은 무엇인가?

주요 결과

다수의 정규 및 불규칙 장면 텍스트 데이터셋에서 최첨단 성능을 달성한다.
SVTP와 CUTE80에서 각각 3.8%와 3.5%의 향상을 보인다.
MLT280에서 강력한 다라인 텍스트 인식을 보여주며 ASTER와 SAR를 크게 능가한다(무작위 초기 61.4% 대 40.0%, 미세 조정 시 80.7% 대 62.5%).
MLT280에서 보정 기반 및 순환 2D 주의 방법보다 각각 약 2.1배 및 4.4배 빠르다.
두 번째 단계 디코더와 관계 주의 모듈이 일관되게 1단계 디코더와 베이스라인 변형보다 정확도를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.