QUICK REVIEW

[논문 리뷰] Text Detection and Recognition in the Wild: A Review

Zobeir Raisi, Mohamed A. Naiel|arXiv (Cornell University)|2020. 06. 08.

Handwritten Text Recognition Techniques참고 문헌 181인용 수 26

한 줄 요약

이 논문은 자연적이고 제약이 없는 환경에서의 장면 텍스트 검출 및 인식을 위한 최근 딥러닝 기반 방법을 종합적으로 검토한다. 통합된 프레임워크를 통해 도전적인 벤치마크에서 최신 사전 훈련된 모델을 평가하며, 실제 환경의 왜곡 조건 하에서의 주요 성능 격차를 규명한다. 연구 결과, 하이브리드 검출 모델(예: PMTD)과 어텐션 기반 인식 네트워크(예: ASTER, CLOVA)가 뛰어난 내성성을 보였으며, 가림, 복잡한 폰트, 특수 문자는 여전히 지속적인 과제로 남아 있다.

ABSTRACT

Detection and recognition of text in natural images are two main problems in the field of computer vision that have a wide variety of applications in analysis of sports videos, autonomous driving, industrial automation, to name a few. They face common challenging problems that are factors in how text is represented and affected by several environmental conditions. The current state-of-the-art scene text detection and/or recognition methods have exploited the witnessed advancement in deep learning architectures and reported a superior accuracy on benchmark datasets when tackling multi-resolution and multi-oriented text. However, there are still several remaining challenges affecting text in the wild images that cause existing methods to underperform due to there models are not able to generalize to unseen data and the insufficient labeled data. Thus, unlike previous surveys in this field, the objectives of this survey are as follows: first, offering the reader not only a review on the recent advancement in scene text detection and recognition, but also presenting the results of conducting extensive experiments using a unified evaluation framework that assesses pre-trained models of the selected methods on challenging cases, and applies the same evaluation criteria on these techniques. Second, identifying several existing challenges for detecting or recognizing text in the wild images, namely, in-plane-rotation, multi-oriented and multi-resolution text, perspective distortion, illumination reflection, partial occlusion, complex fonts, and special characters. Finally, the paper also presents insight into the potential research directions in this field to address some of the mentioned challenges that are still encountering scene text detection and recognition techniques.

연구 동기 및 목표

딥러닝 기반 장면 텍스트 검출 및 인식 분야의 최근 발전에 대한 상세한 검토를 제공하기 위해.
다양한 벤치마크 데이터셋을 통해 통합된 실험 프레임워크에서 최신 사전 훈련된 모델의 성능을 평가하기 위해.
가림, 투시도 왜곡, 복잡한 폰트와 같은 실제 환경 조건에서 텍스트 검출 및 인식에 있어 지속적인 과제를 규명하기 위해.
일반화 격차와 데이터 부족 문제를 해결하기 위한 향후 연구 방향을 제안하기 위해.

제안 방법

ICDAR13, ICDAR15, COCO-Text 데이터셋에서 사전 훈련된 모델을 비교하기 위해 통합 평가 프레임워크를 활용해 광범위한 실험을 수행하였다.
모든 데이터셋에서 일관된 참값(annotation)과 평가 지표를 사용하여 검출 및 인식 모델을 평가하였다.
검출 방법을 세그멘테이션 기반(예: PixelLink, PSENET, PAN), 하이브리드 회귀-세그멘테이션(예: PMTD), 문자 수준 검출(예: CRAFT)으로 분류하였다.
아키텍처 유형에 따라 인식 모델을 평가하였으며, CTC 기반(예: CRNN, STARNET, ROSETTA)과 어텐션 기반(예: ASTER, CLOVA, Baek2019STR)으로 나누어 분석하였다.
정면 회전, 다중 방향, 부분적 가림을 포함한 다중 도전 상황에서 모델 성능을 분석하였다.
가림과 복잡한 폰트에 대한 내성성을 향상시키기 위해 BERT 스타일의 언어 모델과 스타일 전이 기법을 통합할 것을 제안하였다.

실험 결과

연구 질문

RQ1최신 딥러닝 기반 장면 텍스트 검출 모델은 다양한 실제 환경 벤치마크에서 통합 평가 프rotocol 하에서 어떻게 성능을 발휘하는가?
RQ2다양한 방향, 해상도, 왜곡된 텍스트를 다룰 때 어떤 검출 및 인식 아키텍처가 뛰어난 내성성을 보이는가?
RQ3현재 모델이 가림, 복잡한 폰트, 특수 문자에 직면했을 때의 주요 실패 원인은 무엇인가?
RQ4합성 데이터로만 훈련된 인식 모델은 피팅 조정 없이도 실제 제약이 없는 이미지에 얼마나 잘 일반화되는가?
RQ5야외 환경에서의 일반화 및 내성성을 향상시키기 위해 어떤 아키텍처 및 훈련 개선이 필요한가?

주요 결과

세그멘테이션 기반 방법인 PixelLink, PSENET, PAN은 비정상적인 모양의 텍스트 검출에서 뛰어난 내성성을 보였다.
하이브리드 회귀 및 세그멘테이션 모델인 PMTD는 ICDAR13, ICDAR15, COCO-Text에서 높은 H-mean 점수를 기록하였으며, 특히 다중 방향 텍스트에서 뛰어난 성능을 보였다.
문자 수준 검출 모델인 CRAFT는 정밀한 국소화 능력 덕분에 비정상적이고 굽은 형태의 텍스트에서 강력한 성능을 보였다.
모든 평가된 방법에서 다중 도전 요소(예: 가림 + 흐림 + 투시도 왜곡)가 동시에 발생할 경우 성능이 크게 떨어졌다.
어텐션 기반 인식 모델(예: ASTER, CLOVA)은 더 나은 특징 추출 및 공간 정규화 메커니즘 덕분에 CTC 기반 모델(예: CRNN, STARNET)보다 뛰어난 성능을 보였다.
합성 데이터로만 훈련된 인식 모델는 피팅 조정 없이도 실제 이미지에 일반화될 수 있었으며, 일부 경우에서 강력한 도메인 일반화 잠재력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.