Skip to main content
QUICK REVIEW

[논문 리뷰] Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text Detection.

Yuliang Liu, Tong He|arXiv (Cornell University)|2019. 12. 20.
Handwritten Text Recognition Techniques참고 문헌 52인용 수 4
한 줄 요약

이 논문은 순차적 예측 없이 사각형 박스를 이산화하고 핵심 에지로 분해한 후 재구성 매칭 절차를 통해 정확한 정점 위치를 복원함으로써 학습 모호성을 제거하는 새로운 방법인 순차적 자유 박스 이산화(Sequential-free Box Discretization, SBD)를 제안한다. SBD는 ICDAR 2015, MLT 및 ICDAR2019 Robust Reading Challenge에서 최고 성능을 기록하며 중국어 간판 텍스트에 대한 강력한 일반화 능력을 입증한다.

ABSTRACT

Omnidirectional scene text detection has received increasing research attention. Previous methods directly predict words or text lines of quadrilateral shapes. However, most methods neglect the significance of consistent labeling, which is important to maintain a stable training process, especially when a large amount of data are included. For the first time, we solve the problem in this paper by proposing a novel method termed Sequential-free Box Discretization (SBD). The proposed SBD first discretizes the quadrilateral box into several key edges, which contains all potential horizontal and vertical positions. In order to decode accurate vertex positions, a simple yet effective matching procedure is proposed to reconstruct the quadrilateral bounding boxes. It departs from the learning ambiguity which has a significant influence during the learning process. Exhaustive ablation studies have been conducted to quantitatively validate the effectiveness of our proposed method. More importantly, built upon SBD, we provide a detailed analysis of the impact of a collection of refinements, in the hope to inspire others to build state-of-the-art networks. Combining both SBD and these useful refinements, we achieve state-of-the-art performance on various benchmarks, including ICDAR 2015, and MLT. Our method also wins the first place in text detection task of the recent ICDAR2019 Robust Reading Challenge on Reading Chinese Text on Signboard, further demonstrating its powerful generalization ability. Code is available at https://tinyurl.com/sbdnet.

연구 동기 및 목표

  • 사각형 기반의 현장 텍스트 검출에서 일관되지 않은 레이블링으로 인한 학습의 불안정성 문제를 해결한다.
  • 텍스트 검출에서 사각형 정점의 순차적 예측에 내재된 학습 모호성을 제거한다.
  • 대규모 데이터셋에서 학습 시 일관성과 안정성을 보장하는 레이블링 체계를 개발한다.
  • 옴니디렉셔널 환경에서 임의의 형상 텍스트를 정확하고 견고하게 검출할 수 있도록 한다.
  • 체계적인 아블레이션 및 개선 분석을 통해 최고 수준의 텍스트 검출 네트워크를 구축하는 기반을 제공한다.

제안 방법

  • 모든 잠재적인 수평 및 수직 위치를 포괄하는 핵심 에지의 집합으로 사각형 박스를 이산화한다.
  • 이산화된 에지를 기반으로 원래의 사각형을 재구성하는 단순하면서도 효과적인 매칭 절차를 사용한다.
  • 정점 예측을 순차적 생성과 분리함으로써 자기기반 디코딩에 대한 의존도를 제거하고 모호성을 감소시킨다.
  • 예측 결과를 이산화된 핵심 에지와 정렬함으로써 학습 중에 일관되고 안정적인 지도 신호를 보장하는 레이블링 체계를 설계한다.
  • SBD를 검출 네트워크 아키텍처에 통합하여 개선된 수렴성과 정확도를 확보한 엔드 투 엔드 학습을 가능하게 한다.
  • SBD 기반으로 손실 가중치 조정 및 데이터 증강과 같은 일련의 개선 조치를 적용하여 성능을 추가로 향상시킨다.

실험 결과

연구 질문

  • RQ1순차적 예측을 제거함으로써 사각형 기반 텍스트 검출에서 학습 안정성과 검출 정확도는 어떻게 향상되는가?
  • RQ2이산화를 통한 일관된 레이블링이 대규모 텍스트 검출에서 학습 모호성을 얼마나 줄이는가?
  • RQ3SBD는 ICDAR2015, MLT 및 중국어 간판 데이터셋을 포함한 다양한 벤치마크에서 일반화에 어떤 영향을 미치는가?
  • RQ4SBD를 초월하는 개선 조치 중에서 벤치마크 성능 향상에 가장 기여하는 요소는 무엇인가?
  • RQ5복잡한 순차적 디코딩 메커니즘에 의존하지 않고도 SBD가 최고 수준의 성능을 달성할 수 있는가?

주요 결과

  • SBD는 ICDAR 2015 벤치마크에서 기존 방법보다 뛰어난 텍스트 검출 정확도와 학습 안정성을 확보하며 최고 성능을 기록했다.
  • SBD는 MLT 벤치마크에서도 최고 성능을 기록하여 多국어 및 다양한 장면 텍스트에 대한 강력한 일반화 능력을 입증했다.
  • SBD는 ICDAR2019 Robust Reading Challenge의 중국어 간판 텍스트 검출 과제에서 1등을 차지하여 도전적인 실생활 환경에서도 뛰어난 견고성을 입증했다.
  • 아블레이션 연구 결과, SBD는 학습 모호성을 크게 감소시키고 학습 중 수렴 속도와 모델 안정성을 향상시킨다.
  • SBD와 전략적 개선 조치의 조합은 여러 벤치마크에서 일관된 성능 향상을 이끌어내며 제안된 프레임워크의 유효성을 입증한다.
  • 코드와 학습된 모델은 공개되어 있어 재현성과 순차적 자유 텍스트 검출 분야의 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.