[논문 리뷰] Fourier Contour Embedding for Arbitrary-Shaped Text Detection
논문은 Fourier Contour Embedding (FCE)을 도입하여 임의 모양의 텍스트 윤곽을 컴팩트한 Fourier 서명으로 표현하고 FCENet를 구축하여 이 서명을 예측하고 Inverse Fourier Transform으로 윤곽을 재구성하여 엔드-투-엔드 임의 모양 텍스트 탐지를 수행한다.
One of the main challenges for arbitrary-shaped text detection is to design a good text instance representation that allows networks to learn diverse text geometry variances. Most of existing methods model text instances in image spatial domain via masks or contour point sequences in the Cartesian or the polar coordinate system. However, the mask representation might lead to expensive post-processing, while the point sequence one may have limited capability to model texts with highly-curved shapes. To tackle these problems, we model text instances in the Fourier domain and propose one novel Fourier Contour Embedding (FCE) method to represent arbitrary shaped text contours as compact signatures. We further construct FCENet with a backbone, feature pyramid networks (FPN) and a simple post-processing with the Inverse Fourier Transformation (IFT) and Non-Maximum Suppression (NMS). Different from previous methods, FCENet first predicts compact Fourier signatures of text instances, and then reconstructs text contours via IFT and NMS during test. Extensive experiments demonstrate that FCE is accurate and robust to fit contours of scene texts even with highly-curved shapes, and also validate the effectiveness and the good generalization of FCENet for arbitrary-shaped text detection. Furthermore, experimental results show that our FCENet is superior to the state-of-the-art (SOTA) methods on CTW1500 and Total-Text, especially on challenging highly-curved text subset.
연구 동기 및 목표
- 임의 모양 텍스트 탐지에서 매우 곡선인 텍스트 모양을 표현하는 문제에 대응한다.
- 다양한 GT 점 개수를 가진 데이터셋 간에 일반화되는 컴팩트하고 유연한 윤곽 표현을 제안한다.
- 추론 도중 Fourier 서명을 예측하고 윤곽을 재구성함으로써 엔드-투-엔드로 학습 가능한 탐지를 가능하게 한다.
- 곡선 텍스트 벤치마크 CTW1500 및 Total-Text에서 최첨단 또는 경쟁력 있는 결과를 보여준다.
제안 방법
- 복소수 값 함수와 고정된 저주파 성분(K)을 사용하여 푸리에 도메인에서 텍스트 윤곽을 표현한다.
- 고유 starting point, 시계 방향 샘플링, 균일 속도로 고정된 N(예: N=400)으로 윤곽 점을 재샘플링하여 안정된 푸리에 서명을 얻는다.
- 재샘플된 윤곽 점을 이산 푸리에 변환(DFT)을 통해 Fourier 계수 c_k에 임베딩하여 [c_{-K}, ..., c_{K}] 형식의 컴팩트한 Fourier 서명 벡터를 형성한다.
- ResNet50-DCN 백본과 FPN으로 FCENet을 학습시켜 픽셀당 Text Region(TR) 및 Text Center Region(TCR) 마스크와 Fourier 서명 벡터를 예측하고, 추론 시 Inverse Fourier Transform(IFT)과 NMS로 윤곽선을 재구성한다.
- 손실은 분류(TR 및 TCR)와 IFT 적용 후 재구성된 윤곽선과 예측된 윤곽선 간의 L1 차이를 최소화하는 회귀 항을 결합한다(식 6).
- 고정된 재샘플링으로 서로 다른 데이터셋의 사용이 가능하며 CTW1500, Total-Text 등에서도 Fourier 계수를 비교 가능하게 한다.
실험 결과
연구 질문
- RQ1푸리에 도메인 컨투어 표현이 무거운 후처리 없이도 임의 모양 텍스트를 컴팩트하고 유연하게 기술할 수 있는가?
- RQ2엔드-투-엔드로 푸리에 서명을 예측하는 것이 매우 곡선인 텍스트에 대해 IFT를 통한 정확한 컨투어 재구성으로 이어지는가?
- RQ3FCENet은 곡선 텍스트 벤치마크(CTW1500, Total-Text) 및 다방향 데이터셋(ICDAR2015)에서 최첨단 방법과 어떻게 비교되는가?
- RQ4Text Center Region 손실 및 제안된 윤곽 기반 회귀 손실과 같은 구성 요소가 전체 성능에 미치는 영향은 무엇인가?
주요 결과
| Methods | Paper | Ext. | CTW1500_R | CTW1500_P | CTW1500_F | Total-Text_R | Total-Text_P | Total-Text_F | ICDAR2015_R | ICDAR2015_P | ICDAR2015_F |
|---|---|---|---|---|---|---|---|---|---|---|---|
| TextSnake | ECCV’18 | surd | 85.3 | 67.9 | 75.6 | 74.5 | 82.7 | 78.4 | 80.4 | 84.9 | 82.6 |
| SegLink++ | PR’19 | surd | 79.8 | 82.8 | 81.3 | 80.9 | 82.1 | 81.5 | 80.3 | 83.7 | 82.0 |
| SAEmbed | CVPR’19 | surd | 77.8 | 82.7 | 80.1 | - | - | - | 85.0 | 88.3 | 86.6 |
| CRAFT | CVPR’19 | surd | 81.1 | 86.0 | 83.5 | 79.9 | 87.6 | 83.6 | 84.3 | 89.8 | 86.9 |
| PAN (no Ext) | ICCV’19 | × | 77.7 | 84.6 | 81.0 | 79.4 | 88.0 | 83.5 | 77.8 | 82.9 | 80.3 |
| PAN (with Ext) | ICCV’19 | surd | 81.2 | 86.4 | 83.7 | 81.0 | 89.3 | 85.0 | 81.9 | 84.0 | 82.9 |
| PSENet | CVPR’19 | × | 75.6 | 80.6 | 78.0 | 75.1 | 81.8 | 78.3 | 79.7 | 81.5 | 80.6 |
| PSENet | CVPR’19 | surd | 79.7 | 84.8 | 82.2 | 84.0 | 78.0 | 80.9 | 84.5 | 86.9 | 85.7 |
| LOMO | CVPR’19 | surd | 76.5 | 85.7 | 80.8 | 79.3 | 87.6 | 83.3 | 83.5 | 91.3 | 87.2 |
| DB | AAA I’20 | surd | 80.2 | 86.9 | 83.4 | 82.5 | 87.1 | 84.7 | 83.2 | 91.8 | 87.3 |
| Boundary | AAA I’20 | surd | - | - | - | 83.5 | 85.2 | 84.3 | 88.1 | 82.2 | 85.0 |
| DRRG | CVPR’20 | surd | 83.0 | 85.9 | 84.5 | 84.9 | 86.5 | 85.7 | 84.7 | 88.5 | 86.6 |
| ContourNet | CVPR’20 | × | 84.1 | 83.7 | 83.9 | 83.9 | 86.9 | 85.4 | 86.1 | 87.6 | 86.9 |
| TextRay | MM’20 | surd | 80.4 | 82.8 | 81.6 | 77.9 | 83.5 | 80.6 | - | - | - |
| ABCNet | CVPR’20 | surd | 78.5 | 84.4 | 81.4 | 81.3 | 87.9 | 84.5 | - | - | - |
| FCENet† | Ours | × | 80.7 | 85.7 | 83.1 | 79.8 | 87.4 | 83.4 | 84.2 | 85.1 | 84.6 |
| FCENet | Ours | × | 83.4 | 87.6 | 85.5 | 82.5 | 89.3 | 85.8 | 82.6 | 90.1 | 86.2 |
- FCE는 소수의 저주파 성분(K=5가 종종 충분)이 있는 경우 임의의 닫힌 윤곽선을 근사할 수 있다.
- FCENet은 CTW1500 및 Total-Text에서 최첨단과 경쟁력 있는 성능을 달성하며, 매우 곡선인 텍스트 서브셋에서 강한 성능을 보인다.
- 소거실험에서 Text Center Region 손실 및 제안된 윤곽 기반 회귀 손실이 결과를 크게 향상시키며(특히 CTW1500 및 Total-Text에서 주목할 만함).
- 감소된 학습 데이터에서도 FCENet은 견고한 성능을 유지하여 좋은 일반화 능력을 시사한다.
- FCENet은 추가 데이터 없이 FCENet를 사용할 때 CTW1500에서 83.4% R, 87.6% P, 85.5% F, Total-Text에서 82.5% R, 89.3% P, 85.8% F를 달성하며, 향상된 설정으로 CTW1500에서 83.4/87.6/85.5를 얻고; FCENet†(더 큰 백본 사용)은 기본 설정에서 CTW1500에서 80.7/85.7/83.1, Total-Text에서 79.8/87.4/83.4에 도달한다, 표 1참조.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.