[논문 리뷰] Synthetic Data for Text Localisation in Natural Images
본 논문은 SynthText in the Wild를 도입하여 Fully-Convolutional Regression Network (FCRN)을 훈련시켜 자연 이미지에서 빠르고 엔드-투-엔드 텍스트 로컬라이제이션을 수행하고, GPU에서 최첨단 성능과 최대 15 FPS를 달성한다.
In this paper we introduce a new method for text detection in natural images. The method comprises two contributions: First, a fast and scalable engine to generate synthetic images of text in clutter. This engine overlays synthetic text to existing background images in a natural way, accounting for the local 3D scene geometry. Second, we use the synthetic images to train a Fully-Convolutional Regression Network (FCRN) which efficiently performs text detection and bounding-box regression at all locations and multiple scales in an image. We discuss the relation of FCRN to the recently-introduced YOLO detector, as well as other end-to-end object detection systems based on deep learning. The resulting detection network significantly out performs current methods for text detection in natural images, achieving an F-measure of 84.2% on the standard ICDAR 2013 benchmark. Furthermore, it can process 15 images per second on a GPU.
연구 동기 및 목표
- 합성 데이터를 사용하여 자연 장면에서 견고한 텍스트 스팟팅을 촉진하고 주석 비용을 줄인다.
- 장면 기하학과 조명을 고려한 확장 가능한 합성 데이터 생성 파이프라인을 개발한다.
- 밀집 텍스트 로컬라이제이션 및 경계 상자 회귀를 위한 빠른 완전 합성곱 회귀 네트워크를 제안한다.
- 표준 벤치마크에서 접근법을 평가하고 텍스트 스팟팅의 엔드-투-엔드 향상을 보여준다.
제안 방법
- 지오메트리 인식 정렬을 사용하여 배경 이미지에 합성 텍스트를 겹쳐 넣어 SynthText in the Wild를 생성한다.
- 렌더링 전에 현장 기하에 맞추어 텍스트를 방향 잡기 위해 국부 깊도와 표면 법선을 추정한다.
- 지역 색상에 맞춰 텍스트를 렌더링하고 포아송 블렌딩을 적용해 매끄러운 합성을 달성한다.
- 밀집 그리드 위치에서 텍스트 존재 여부와 경계 상자 매개변수를 예측하는 Fully-Convolutional Regression Network(FCRN)을 개발한다.
- 800k개의 합성 이미지에서 FCRN을 학습하고 단일 스케일 및 다중 스케일 검출을 평가한다.
- 다중 스케일 FCRN 출력과 후처리 필터를 결합해 제안들을 다듬고 재현율을 높인다.
실험 결과
연구 질문
- RQ1합성 장면 텍스트 데이터가 자연 이미지용 고성능 텍스트 탐지기를 학습하기에 충분한 현실감을 제공할 수 있는가?
- RQ2완전 합성곱 회귀 네트워크가 텍스트 로컬라이제이션에서 속도와 정확도 면에서 영역 제안 기반 접근법과 어떻게 비교되는가?
- RQ3합성 데이터 생성에서의 어떤 설계 선택(로컬 지역 신호, 깊이에 기반한 원근, 블렌딩)이 로컬라이제이션 성능에 가장 큰 영향을 미치는가?
- RQ4자연 장면에서 텍스트 로컬라이제이션의 향상이 엔드-투-엔드 텍스트 스팟팅(탐지+인식)을 얼마나 향상시킬 수 있는가?
주요 결과
- SynthText in the Wild를 이용한 학습은 ICDAR 2013 및 관련 벤치마크에서 최첨단 텍스트 탐지를 가능하게 한다.
- FCRN 탐지기는 이전 방법에 비해 현저히 빠르며 GPU에서 초당 최대 15장의 이미지를 처리한다.
- 다중 스케일 FCRN 검출은 제안으로 사용되고 후처리와 함께 최대 F-점수와 평균 정밀도에서 상당한 향상을 달성한다.
- 이전 탐지 단계를 FCRN 기반 제안으로 대체하면 엔드-투-엔드 텍스트 스팟팅이 현저히 향상되며, ICDAR 데이터셋에서 8포인트 F-measure 이점을 포함한다.
- 합성 데이터 기반 탐지기는 영역 제안 단계에서 큰 속도 향상을 제공하며(약 45배), 최종 제안 세트를 줄이면서 정확도를 유지하거나 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.