[논문 리뷰] WeText: Scene Text Detection under Weak Supervision
WeText는 229张의 완전히 애너테이션된 이미지만을 사용하여 대규모 비애너테이션 또는 약한 애너테이션 데이터를 활용해 정확한 문자 검출기 학습을 위한 약한 지도 학습 기반의 장면 텍스트 검출 프레임워크를 제안한다. 이는 약한 지도 학습 데이터에서 양성 문자 샘플을 추출하기 위해 경량 지도 학습 모델을 사용하고, 오차 누적을 줄이기 위해 회귀 기반 검출을 통합하며, 최소한의 인간 애너테이션으로 최신 기술 수준의 성능을 달성한다.
The requiring of large amounts of annotated training data has become a common constraint on various deep learning systems. In this paper, we propose a weakly supervised scene text detection method (WeText) that trains robust and accurate scene text detection models by learning from unannotated or weakly annotated data. With a "light" supervised model trained on a small fully annotated dataset, we explore semi-supervised and weakly supervised learning on a large unannotated dataset and a large weakly annotated dataset, respectively. For the unsupervised learning, the light supervised model is applied to the unannotated dataset to search for more character training samples, which are further combined with the small annotated dataset to retrain a superior character detection model. For the weakly supervised learning, the character searching is guided by high-level annotations of words/text lines that are widely available and also much easier to prepare. In addition, we design an unified scene character detector by adapting regression based deep networks, which greatly relieves the error accumulation issue that widely exists in most traditional approaches. Extensive experiments across different unannotated and weakly annotated datasets show that the scene text detection performance can be clearly boosted under both scenarios, where the weakly supervised learning can achieve the state-of-the-art performance by using only 229 fully annotated scene text images.
연구 동기 및 목표
- 딥러닝에서 완전히 애너테이션된 장면 텍스트 데이터셋의 높은 비용과 부족함을 해결한다.
- 별도의 후보 생성 및 분류 단계를 제거하여 문자 기반 장면 텍스트 검출에서 오차 누적을 줄인다.
- 비용이 많이 드는 문자 수준의 애너테이션 대신, 단어 수준 또는 텍스트 라인 수준의 애너테이션과 같은 약한 지도 학습을 통해 강력한 텍스트 검출기의 효과적인 학습을 가능하게 한다.
- 약한 지도 학습이 최소한의 인간 애너테이션 데이터로 완전히 지도 학습 모델에 가까운 성능을 달성할 수 있음을 입증한다.
제안 방법
- 완전히 애너테이션된 문자 이미지의 소량의 데이터셋을 기반으로 경량 지도 학습 모델을 학습한다.
- 경량 모델을 사용하여 대규모 비애너테이션 또는 약한 애너테이션 데이터셋에서 양성 문자 후보를 추론하고 추출한다.
- 추출된 샘플과 원본 애너테이션 데이터를 병합하여 재학습하기 위해 반감독 학습을 적용한다.
- 더 쉽게 확보할 수 있는 고수준의 단어 또는 텍스트 라인 애너테이션을 활용하여 문자 후보 추출을 안내함으로써 약한 지도 학습을 구현한다.
- 제안 단계가 없는, 회귀 기반의 딥 네트워크를 설계하여 단일 순방향 전파에서 문자 바운딩 박스와 텍스트 신뢰도를 직접 예측한다.
- 검출 및 분류 단계를 하나의 통합 네트워크로 통합하여 오차 전파를 최소화하고 정확도 및 효율성을 향상시킨다.
실험 결과
연구 질문
- RQ1완전히 애너테이션된 이미지의 수가 매우 적을 경우, 약한 지도 학습이 장면 텍스트 검출 성능을 크게 향상시킬 수 있는가?
- RQ2비애너테이션 또는 약한 애너테이션 데이터에서 양성 문자 샘플을 추출하는 것이 검출기 성능 향상에 얼마나 효과적인가?
- RQ3통합된 회귀 기반 검출기가 전통적인 이중 단계 검출 파이프라인에 비해 정확도와 오차 누적 측면에서 뛰어난 성능을 보일 수 있는가?
- RQ4약한 애너테이션 데이터셋의 크기가 커질수록 약한 지도 학습 모델의 성능이 향상되는가?
- RQ5반복적인 자기학습이 약한 지도 학습 기반 장면 텍스트 검출에서 모델 성능 향상에 얼마나 기여하는가?
주요 결과
- 약한 지도 학습 기반의 WeText 모델은 오직 229장의 완전히 애너테이션된 문자 이미지만을 사용하여 ICDAR 2013에서 최신 기술 수준의 성능을 달성한다.
- COCO-Text_Weakly_TL 모델는 FORU_Semi_TL 및 FORU_Weakly_TL를 모두 능가하며, 더 큰 약한 애너테이션 데이터셋이 더 나은 성능을 이끌어낸다는 것을 입증한다.
- SWT 데이터셋에서 제안된 방법은 약한 지도 학습을 통해 F-스코어를 59.8%로 향상시켰으며, 베이스라인(53.9%) 및 이전의 다른 방법들을 초월한다.
- 반복적인 자기학습을 통해 약한 지도 학습 모델의 F-스코어가 두 번의 라운드 후 85.4%에서 86.2%로 향상되었으며, 완전히 지도 학습 모델의 성능(86.2% 대 86.4%)에 가까워졌다.
- 모델은 Titan X GPU에서 이미지당 약 0.32초의 처리 시간을 기록하여 실시간 응용 분야에 큰 잠재력을 보인다.
- 정성적 결과는 특히 COCO-Text와 같이 더 큰 약한 애너테이션 데이터셋에서 학습할 경우 재현율 향상과 거짓 긍정 감소에서 뚜렷한 향상을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.