QUICK REVIEW

[논문 리뷰] Fused Text Segmentation Networks for Multi-oriented Scene Text Detection

Yuchen Dai, Zheng Huang|arXiv (Cornell University)|2017. 09. 11.

Handwritten Text Recognition Techniques참고 문헌 39인용 수 25

한 줄 요약

이 논문은 다중 방향 텍스트를 융합된 다중 수준 특징과 Mask-NMS를 사용하여 동시에 검출하고 분할하는 엔드 투 엔드, 인스턴스 인식 프레임워크인 Fused Text Segmentation Networks(FTSN)를 제안한다. 이는 ICDAR2015에서 84.1%의 H-mean, MSRA-TD500에서 82.0%의 H-mean를 기록하며 최신 기술 수준을 달성하였고, 곡선 텍스트를 포함하는 Total-Text에서 새로운 베이스라인을 수립하였다.

ABSTRACT

In this paper, we introduce a novel end-end framework for multi-oriented scene text detection from an instance-aware semantic segmentation perspective. We present Fused Text Segmentation Networks, which combine multi-level features during the feature extracting as text instance may rely on finer feature expression compared to general objects. It detects and segments the text instance jointly and simultaneously, leveraging merits from both semantic segmentation task and region proposal based object detection task. Not involving any extra pipelines, our approach surpasses the current state of the art on multi-oriented scene text detection benchmarks: ICDAR2015 Incidental Scene Text and MSRA-TD500 reaching Hmean 84.1% and 82.0% respectively. Morever, we report a baseline on total-text containing curved text which suggests effectiveness of the proposed approach.

연구 동기 및 목표

제약 조건이 없는 환경에서 다중 방향 및 곡선 텍스트를 높은 정확도와 효율성으로 검출하는 도전 과제를 해결한다.
기존 방법들이 반복적인 파ip라인에 의존하거나 임의의 형태의 텍스트 인스턴스 처리에 어려움을 겪는 한계를 극복한다.
영역 제안 네트워크와 세분화 분류의 장점을 융합한 통합된 엔드 투 엔드 학습 가능한 프레임워크를 개발한다.
Mask-NMS를 도입하여 기존 NMS보다 더 효과적으로 겹치는 검출 결과를 억제함으로써 기울임이 심하거나 선 수준의 텍스트에 대한 비최대 억제 성능을 향상시킨다.
곡선 텍스트를 포함하는 Total-Text 데이터셋에 대해 곡선 텍스트 전용 설계 없이도 강력한 베이스라인을 수립한다.

제안 방법

텍스트 인스턴스의 세분화된 표현을 향상시키기 위해 특징 추출 단계에서 다중 수준의 컨볼루션 특징을 융합한다.
텍스트의 큰 종횡비와 작은 크기 특성에 맞춘 맞춤형 앵커 스케일 [32², 64², 128², 256²]과 비율 [1/3, 1/2, 1, 2, 3, 5, 7]을 사용한 영역 제안 네트워크(RPN)를 적용한다.
영역 제안과 인스턴스 인식 세분화 분류를 융합하여 엔드 투 엔드 방식으로 텍스트 인스턴스를 동시에 검출하고 분할한다.
예측된 세분화 마스크를 사용해 표준 NMS보다 더 효과적으로 겹치는 검출 결과를 억제하는 Mask-NMS를 적용한다.
정확한 마스크 예측을 위해 특징 맵에 대해 PSROIPooling을 사용하여 영역별 특징을 생성한다.
다양한 스케일의 훈련, 15°, 30°, 45° 회전, 수평 뒤집기, 색상 왜곡 등을 포함한 데이터 증강 기법을 활용해 정확도를 향상시킨다.

실험 결과

연구 질문

RQ1기존의 두 단계 또는 파이프라인 기반 방법보다 통합된 엔드 투 엔드 프레임워크가 다중 방향 텍스트를 더 효과적으로 동시에 검출하고 분할할 수 있는가?
RQ2다양한 크기와 방향을 가진 텍스트에 대해 다중 수준 특징 융합이 검출 성능을 어떻게 향상시키는가?
RQ3Mask-NMS가 겹치는 또는 기울임이 심한 텍스트 인스턴스 억제에 있어 표준 NMS보다 얼마나 뛰어나게 작용하는가?
RQ4제안된 방법이 곡선 텍스트를 포함한 데이터셋, 예를 들어 Total-Text에 대해 특별한 설계 없이도 잘 일반화되는가?
RQ5과도한 후처리 단계(예: 시각적 강조도 또는 텍스트 라인 생성)가 제거됨으로써 효율성과 정확도가 동시에 향상되는가?

주요 결과

Mask-NMS를 사용한 FTSN은 ICDAR2015에서 84.1%의 H-mean을 기록하여 이전 최고 성능보다 H-mean 기준 3.1%p, 정밀도 기준 5.3%p 향상되었다.
MSRA-TD500에서 FTSN은 Mask-NMS를 사용해 82.0%의 H-mean을 달성하였으며, H-mean과 재현율 모두에서 이전 최고 성능보다 뚜렷한 우수성을 보였다.
Total-Text에서 FTSN는 81.3%의 H-mean으로 새로운 최고 성능 베이스라인을 설정하였으며, 곡선 텍스트에 대한 강력한 일반화 능력을 입증하였다. 이는 곡선 텍스트에 대한 전용 훈련 없이도 성능을 달성한 것이다.
Mask-NMS는 ICDAR2015에서 H-mean을 0.7%p 향상시키고, MSRA-TD500에서는 0.3%p 향상시켜 겹치는 또는 기울임이 심한 텍스트 인스턴스 처리에 효과적임을 확인하였다.
848×1500 이미지에서 약 4 FPS로 실행되며, Mask-NMS를 사용할 경우 약 2.5 FPS로 실행되어 속도와 정확도 사이에 균형 잡힌 성능을 보였다.
절단 분석 결과, 제안된 특징 융합 및 Mask-NMS 구성 요소가 특히 도전적인 다중 방향 및 곡선 텍스트 케이스에서 성능 향상에 핵심적인 역할을 한다는 것이 입증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.