QUICK REVIEW

[논문 리뷰] Multi-Oriented Text Detection with Fully Convolutional Networks

Zheng Zhang, Chengquan Zhang|arXiv (Cornell University)|2016. 04. 14.

Handwritten Text Recognition Techniques참고 문헌 30인용 수 85

한 줄 요약

이 논문은 다중 방향 텍스트 검출을 위한 완전 컨volution 네트워크(FCN) 기반 프레임워크를 제안한다. 이는 거시적 샐런시 지도와 미시적 문자 성분을 굵기에서 세밀한 방식으로 활용한다. FCN가 예측한 텍스트 샐런시와 MSER 기반 성분 그룹화, 그리고 문자 중심점 예측을 위한 두 번째 FCN를 조합함으로써, MSRA-TD500, ICDAR2015, ICDAR2013 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성한다. 이는 임의의 방향, 다국어, 도전적인 영상 조건에 대해 뛰어난 내성성을 보여준다.

ABSTRACT

In this paper, we propose a novel approach for text detec- tion in natural images. Both local and global cues are taken into account for localizing text lines in a coarse-to-fine pro- cedure. First, a Fully Convolutional Network (FCN) model is trained to predict the salient map of text regions in a holistic manner. Then, text line hypotheses are estimated by combining the salient map and character components. Fi- nally, another FCN classifier is used to predict the centroid of each character, in order to remove the false hypotheses. The framework is general for handling text in multiple ori- entations, languages and fonts. The proposed method con- sistently achieves the state-of-the-art performance on three text detection benchmarks: MSRA-TD500, ICDAR2015 and ICDAR2013.

연구 동기 및 목표

자연 영상 내에서 임의의 방향으로 배치된 텍스트를 검출하는 과제를 해결하기 위해.
저조도, 투시 왜곡 등의 도전적인 영상 조건에서 다양한 텍스트 스타일, 언어에 걸쳐 검출의 내성성을 향상시키기 위해.
더 나은 텍스트 라인 국소화를 위해 전역(텍스트 블록) 및 국소(문자 성분) 신호를 효과적으로 통합하기 위해.
정확한 문자 중심점 예측을 활용하여 텍스트 라인 후보에서 잔재성 경고(false positives)를 줄이기 위해.
수평선 및 다중 방향 텍스트 검출에 모두 적용 가능한 일반화 가능한 프레임워크를 개발하기 위해.

제안 방법

전체 컨volution 네트워크(FCN)를 학습하여 텍스트 영역를 나타내는 픽셀 단위의 샐런시 지도를 예측함으로써, 종합적이고 거시적인 수준의 텍스트 블록 검출을 가능하게 한다.
샐런시 지도에서 텍스트 블록을 분할하고, 이를 후속 성분 추출을 위한 관심 영역(region of interest)으로 사용한다.
텍스트 블록에서 최대 안정성 외곽선 영역(MSER)을 추출하여 국소적 문자 성분을 식별한다.
성분 투영을 사용하여 각 텍스트 라인 후보의 방향을 추정한다.
성분과 샐런시 지도의 공간적 제약 조건을 결합하여 후보 경계 상자(bounding boxes)를 생성한다.
각 후보 내에서 문자 중심점을 예측하기 위해 두 번째 FCN를 학습하며, 이를 통해 임의의 경고를 걸러내는 데 사용한다.

실험 결과

연구 질문

RQ1완전 컨볼루션 네트워크가 다중 방향 텍스트 검출을 위해 전역적 텍스트 샐런시를 효과적으로 예측할 수 있는가?
RQ2국소적 문자 성분과 전역적 텍스트 블록 정보를 어떻게 조합하여 임의의 방향으로 기울어진 텍스트 라인의 검출을 향상시킬 수 있는가?
RQ3문자 중심점 예측을 위한 보조 FCN가 텍스트 라인 후보에서 임의의 경고 검출을 효과적으로 줄일 수 있는가?
RQ4제안된 거시-미시적 프레임워크는 수평선이 아닌 다국어 및 비수평 텍스트를 포함한 여러 데이터셋과 텍스트 유형에 일반화되는가?
RQ5저조도, 무늬, 투시 왜곡과 같은 도전적인 조건에 대해 이 방법은 얼마나 내성적인가?

주요 결과

제안된 방법은 ICDAR2013 데이터셋에서 F-측정치 0.83을 달성하여, 수평 텍스트 검출을 위한 이전 모든 방법을 능가한다.
ICDAR2015 벤치마크에서 F-측정치 0.54를 기록하여, 대회에 참가한 모든 경쟁 방법 중에서 최고 성능을 달성한다.
MSRA-TD500에서 최신 기술 수준 성능을 달성하며, 다양한 텍스트 방향과 복잡한 시나리오에 걸쳐 강력한 일반화 능력을 보여준다.
비균일한 조명, 점 문자, 끊어진 획, 투시 왜곡, 다국어 텍스트와 같은 도전적인 조건에 대해 내성적이다.
MSER의 매개변수 T1과 T2에 대한 텍스트 라인 후보의 재현율(recall)은 민감하지 않아, 성분 품질 변동에 대한 방법의 안정성을 시사한다.
강력한 성능에도 불구하고, 극도로 낮은 대비의 텍스트, 강한 반사, 매우 가까이 또는 넓게 떨어져 있는 문자에 대해서는 여전히 어려움을 겪는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.