QUICK REVIEW

[논문 리뷰] Synthetic Data for Text Localisation in Natural Images

Ankush Gupta, Andrea Vedaldi|arXiv (Cornell University)|2016. 04. 22.

Handwritten Text Recognition Techniques참고 문헌 36인용 수 160

한 줄 요약

본 논문은 SynthText in the Wild를 도입하여 Fully-Convolutional Regression Network (FCRN)을 훈련시켜 자연 이미지에서 빠르고 엔드-투-엔드 텍스트 로컬라이제이션을 수행하고, GPU에서 최첨단 성능과 최대 15 FPS를 달성한다.

ABSTRACT

In this paper we introduce a new method for text detection in natural images. The method comprises two contributions: First, a fast and scalable engine to generate synthetic images of text in clutter. This engine overlays synthetic text to existing background images in a natural way, accounting for the local 3D scene geometry. Second, we use the synthetic images to train a Fully-Convolutional Regression Network (FCRN) which efficiently performs text detection and bounding-box regression at all locations and multiple scales in an image. We discuss the relation of FCRN to the recently-introduced YOLO detector, as well as other end-to-end object detection systems based on deep learning. The resulting detection network significantly out performs current methods for text detection in natural images, achieving an F-measure of 84.2% on the standard ICDAR 2013 benchmark. Furthermore, it can process 15 images per second on a GPU.

연구 동기 및 목표

합성 데이터를 사용하여 자연 장면에서 견고한 텍스트 스팟팅을 촉진하고 주석 비용을 줄인다.
장면 기하학과 조명을 고려한 확장 가능한 합성 데이터 생성 파이프라인을 개발한다.
밀집 텍스트 로컬라이제이션 및 경계 상자 회귀를 위한 빠른 완전 합성곱 회귀 네트워크를 제안한다.
표준 벤치마크에서 접근법을 평가하고 텍스트 스팟팅의 엔드-투-엔드 향상을 보여준다.

제안 방법

지오메트리 인식 정렬을 사용하여 배경 이미지에 합성 텍스트를 겹쳐 넣어 SynthText in the Wild를 생성한다.
렌더링 전에 현장 기하에 맞추어 텍스트를 방향 잡기 위해 국부 깊도와 표면 법선을 추정한다.
지역 색상에 맞춰 텍스트를 렌더링하고 포아송 블렌딩을 적용해 매끄러운 합성을 달성한다.
밀집 그리드 위치에서 텍스트 존재 여부와 경계 상자 매개변수를 예측하는 Fully-Convolutional Regression Network(FCRN)을 개발한다.
800k개의 합성 이미지에서 FCRN을 학습하고 단일 스케일 및 다중 스케일 검출을 평가한다.
다중 스케일 FCRN 출력과 후처리 필터를 결합해 제안들을 다듬고 재현율을 높인다.

실험 결과

연구 질문

RQ1합성 장면 텍스트 데이터가 자연 이미지용 고성능 텍스트 탐지기를 학습하기에 충분한 현실감을 제공할 수 있는가?
RQ2완전 합성곱 회귀 네트워크가 텍스트 로컬라이제이션에서 속도와 정확도 면에서 영역 제안 기반 접근법과 어떻게 비교되는가?
RQ3합성 데이터 생성에서의 어떤 설계 선택(로컬 지역 신호, 깊이에 기반한 원근, 블렌딩)이 로컬라이제이션 성능에 가장 큰 영향을 미치는가?
RQ4자연 장면에서 텍스트 로컬라이제이션의 향상이 엔드-투-엔드 텍스트 스팟팅(탐지+인식)을 얼마나 향상시킬 수 있는가?

주요 결과

SynthText in the Wild를 이용한 학습은 ICDAR 2013 및 관련 벤치마크에서 최첨단 텍스트 탐지를 가능하게 한다.
FCRN 탐지기는 이전 방법에 비해 현저히 빠르며 GPU에서 초당 최대 15장의 이미지를 처리한다.
다중 스케일 FCRN 검출은 제안으로 사용되고 후처리와 함께 최대 F-점수와 평균 정밀도에서 상당한 향상을 달성한다.
이전 탐지 단계를 FCRN 기반 제안으로 대체하면 엔드-투-엔드 텍스트 스팟팅이 현저히 향상되며, ICDAR 데이터셋에서 8포인트 F-measure 이점을 포함한다.
합성 데이터 기반 탐지기는 영역 제안 단계에서 큰 속도 향상을 제공하며(약 45배), 최종 제안 세트를 줄이면서 정확도를 유지하거나 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.