Skip to main content
QUICK REVIEW

[논문 리뷰] Sliding Line Point Regression for Shape Robust Scene Text Detection

Yixing Zhu, Jun Du|arXiv (Cornell University)|2018. 01. 30.
Handwritten Text Recognition Techniques참고 문헌 23인용 수 26
한 줄 요약

이 논문은 슬라이딩 수평선 및 수직선을 통해 텍스트 경계선의 점들을 회귀시켜 임의의 형태와 곡선을 띤 도메인 텍스트를 검출하는 새로운 방법인 슬라이딩 라인 포인트 회귀(SLPR)를 제안한다. 사각형 우선순위와 한 점당 한 좌표만을 회귀시킴으로써 모델의 파라미터를 감소시키고 강인성을 향상시켜, LSTMs를 사용하지 않고도 ICDAR2015에서 최고 성능을 기록하고 CTW1500에서도 최신 기준(SOTA) 성능을 달성한다.

ABSTRACT

Traditional text detection methods mostly focus on quadrangle text. In this study we propose a novel method named sliding line point regression (SLPR) in order to detect arbitrary-shape text in natural scene. SLPR regresses multiple points on the edge of text line and then utilizes these points to sketch the outlines of the text. The proposed SLPR can be adapted to many object detection architectures such as Faster R-CNN and R-FCN. Specifically, we first generate the smallest rectangular box including the text with region proposal network (RPN), then isometrically regress the points on the edge of text by using the vertically and horizontally sliding lines. To make full use of information and reduce redundancy, we calculate x-coordinate or y-coordinate of target point by the rectangular box position, and just regress the remaining y-coordinate or x-coordinate. Accordingly we can not only reduce the parameters of system, but also restrain the points which will generate more regular polygon. Our approach achieved competitive results on traditional ICDAR2015 Incidental Scene Text benchmark and curve text detection dataset CTW1500.

연구 동기 및 목표

  • 기존의 사각형 기반 방법이 정확히 표현하지 못하는 자연 환경의 임의의 방향성 및 곡선 텍스트 검출 문제를 해결하기 위해.
  • 경계 사각형의 기하학적 제약 조건을 활용해 한 점당 한 좌표만을 회귀시켜 모델의 복잡성과 부여를 줄이기 위해.
  • 슬라이딩 라인 규칙을 통해 회귀 점들 간의 구조적 관계를 강제함으로써 검출 강인성과 다각형 정규성을 향상시키기 위해.
  • LSTM과 같은 복잡한 순환 모듈에 의존하지 않고도 표준 및 곡선 텍스트 검출 벤치마크에서 최고 성능을 달성하기 위해.
  • 더 넓은 배포를 위해 Faster R-CNN 및 R-FCN과 같은 표준 이단계 검출기와의 호환성을 보장하기 위해.

제안 방법

  • SLPR는 텍스트 라인의 축에 평행한 최소 외접 사각형을 생성하기 위해 영역 제안 네트워크(RPN)를 사용한다.
  • 슬라이딩 라인 메커니즘을 도입한다: 수직선은 사각형의 수평 범위를 따라, 수평선은 수직 범위를 따라 이동하여 텍스트 경계선 상의 후보 점들을 생성한다.
  • 각 점에 대해 한 좌표(또는 x 또는 y)만을 회귀시키며, 다른 좌표는 사각형의 위치로부터 계산하여 중복을 줄인다.
  • 비율 기반 동적 가중치를 적용하는 손실 함수를 사용하며, $\lambda_{hw} = 4$ 및 $k = 0.8$를 사용해 수평 및 수직 샘플 간의 균형을 맞춘다.
  • 점 기반 복원 전략(PLS)을 사용해 사각형과 회귀된 점들을 조합하여 다각형을 복원하며, RNN이나 어텐션 모듈이 필요 없도록 한다.
  • 프레임워크는 Faster R-CNN 및 R-FCN와 호환되며, 표준 학습 설정을 사용해 ResNet-50을 백본으로 사용한다.

실험 결과

연구 질문

  • RQ1슬라이딩 라인 기반의 단순하고 미분 가능한 회귀 전략이 임의의 형태와 곡선 텍스트 검출에 향상된 성능을 이끌 수 있는가?
  • RQ2경계 사각형에서 유도된 기하학적 제약 조건이 정확도를 희생시키지 않고도 회귀 수를 줄일 수 있는가?
  • RQ3RNN이나 어텐션 모듈을 제거하고 구조적인 점 회귀 전략을 도입함으로써 곡선 텍스트에서 더 나은 일반화 및 성능 향상을 달성할 수 있는가?
  • RQ4제안된 방법이 데이터 증강 없이도 표준 및 곡선 텍스트 벤치마크에서 최고 성능을 달성할 수 있는가?
  • RQ5비최대 억제(NMS) 임계값의 선택이 다양한 텍스트 형태를 가진 데이터셋에서 성능에 미치는 영향은 어떠한가?

주요 결과

  • ICDAR2015 Incidental Scene Text 벤치마크에서 SLPR는 86.7%의 경쟁력 있는 Hmean을 기록했으며, 여러 이전 방법들을 능가했다.
  • CTW1500 곡선 텍스트 데이터셋에서 SLPR는 Hmean 74.8%를 기록했으며, CTD+TLOC 방법을 5.3%포인트 뛰어넘었다.
  • LSTM 기반 TLOC 모듈을 사용하지 않음에도 불구하고, SLPR는 CTD+TLOC 대비 Hmean을 1.4% 향상시켜 기하학적 설계의 효과를 입증했다.
  • PNMS(확률적 NMS)는 ICDAR2015에서 표준 NMS를 略로 뛰어넘었지만, CTW1500에서는 IoU 임계값 0.3인 표준 NMS가 가장 우수한 성능을 보였다.
  • 다중 해상도 추론은 ICDAR2015에서 Hmean을 약 1% 향상시켜 해상도 적응의 유용성을 확인했다.
  • 절단 실험 결과, 모든 점을 다각형 복원에 사용한 BHVP가 긴 변만을 사용한 PLS보다 성능이 뛰어났지만, PLS 역시 강력한 성능을 내기에는 충분했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.