[논문 리뷰] Detecting Curve Text in the Wild: New Dataset and New Solution
이 논문은 CTW1500 curve-text 데이터셋과 TLOC가 포함된 폴리곤 기반 Curve Text Detector (CTD)를 제안하여 곡선 텍스트를 직접 탐지하고 기존 방법을 능가한다.
Scene text detection has been made great progress in recent years. The detection manners are evolving from axis-aligned rectangle to rotated rectangle and further to quadrangle. However, current datasets contain very little curve text, which can be widely observed in scene images such as signboard, product name and so on. To raise the concerns of reading curve text in the wild, in this paper, we construct a curve text dataset named CTW1500, which includes over 10k text annotations in 1,500 images (1000 for training and 500 for testing). Based on this dataset, we pioneering propose a polygon based curve text detector (CTD) which can directly detect curve text without empirical combination. Moreover, by seamlessly integrating the recurrent transverse and longitudinal offset connection (TLOC), the proposed method can be end-to-end trainable to learn the inherent connection among the position offsets. This allows the CTD to explore context information instead of predicting points independently, resulting in more smooth and accurate detection. We also propose two simple but effective post-processing methods named non-polygon suppress (NPS) and polygonal non-maximum suppression (PNMS) to further improve the detection accuracy. Furthermore, the proposed approach in this paper is designed in an universal manner, which can also be trained with rectangular or quadrilateral bounding boxes without extra efforts. Experimental results on CTW-1500 demonstrate our method with only a light backbone can outperform state-of-the-art methods with a large margin. By evaluating only in the curve or non-curve subset, the CTD + TLOC can still achieve the best results. Code is available at https://github.com/Yuliang-Liu/Curve-Text-Detector.
연구 동기 및 목표
- 현장 환경에서 곡선 모양의 텍스트를 읽도록 동기를 부여하고 데이터세트 희소성을 해결한다.
- 표기 용이성을 위해 다각형 주석이 있는 곡선 텍스트 데이터셋 CTW1500을 만든다.
- 후처리 그룹화 없이 곡선 텍스트를 직접 탐지하는 다각형 기반 직접 검출기(CTD)를 제안한다.
- 지점 오프셋 간의 순차 맥락을 포착하여 더 매끄러운 위치 추정을 가능하게 하는 TLOC를 도입한다.
- 직사각형, 사각형, 또는 곡선 주석에 적응하는 범용 학습을 제공한다.
제안 방법
- 곡선 포인트 14개와 외접 사각형 매개변수를 회귀하는 다각형 기반 텍스트 검출기 CTD를 제안한다.
- 학습 안정성을 높이기 위해 회귀를 너비 오프셋과 높이 오프셋으로 분리한다.
- BLSTM을 사용해 점 오프셋 간의 순차 맥락을 모델링하는 순환 횡방향 및 종방향 오프셋 연결(TLOC)을 부착한다.
- PSROIPooling을 이용해 지점별 오프셋 특성을 생성하고 이를 TLOC 모듈에 입력해 순차 예측을 수행한다.
- 제안들에 걸쳐 분류와 위치 추정 항을 결합한 다중 작업 손실로 학습한다.
- 두 가지 후처리 단계: 비다각형 억제(NPS)와 다각형 비최대 억제(PNMS)를 적용한다.
실험 결과
연구 질문
- RQ1다각형 기반 탐지기가 별도 탐지에서 구성 요소를 조합하지 않고도 곡선 텍스트를 직접 위치화할 수 있는가?
- RQ2순환 오프셋 연결(TLOC)을 도입하면 곡선 텍스트의 위치 정확도가 향상되는가?
- RQ3곡선 중심의 후처리 단계(NPS, PNMS)가 곡선 및 비곡선 텍스트의 탐지 성능에 어떤 영향을 미치는가?
- RQ4이 방법이 추가 라벨링 노력 없이 곡선, 직사각형 및 사각형 주석을 모두 처리할 만큼 일반화되어 있는가?
주요 결과
- CTW1500은 1,500장의 이미지와 10,751개의 바운딩 박스를 포함하며, 그 중 3,530개가 곡선 박스이다.
- CTD( TLOC 없음)는 전체 CTW1500 테스트 세트에서 Hmean 69.5로 최첨단을 달성하고; CTD with TLOC은 73.4에 도달한다.
- CTD+TLOC은 곡선 텍스트 탐지를 크게 개선하여 곡선 부분에서 13.3 FPS로 77.1 R, 57.1 P, 65.6 H를 달성한다.
- PNMS는 실험 전반에서 NMS보다 일관되게 향상되며, TLOC를 추가하면 Hmean에서 가장 큰 이득(약 4% 포인트)을 얻는다.
- CTD+TLOC는 CTW1500 결과에서 여러 베이스라인(SegLink, SWT, CTPN, EAST, DMPNet)을 능가하며, 특히 곡선 부분에서 약 28%의 Hmean 개선과 같은 성과를 보인다.
- 방법은 곡선 텍스트를 직접 처리하면서도 빠르게(13–15 FPS) 작동하며 비곡선 부분 세트로 일반화된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.