Skip to main content
QUICK REVIEW

[논문 리뷰] Alchemy: Techniques for Rectification Based Irregular Scene Text Recognition

Shangbang Long, Yushuo Guan|arXiv (Cornell University)|2019. 08. 30.
Handwritten Text Recognition Techniques인용 수 3
한 줄 요약

이 논문은 불규칙한 시나리오 텍스트 인식에 있어 정규화 기반 기법의 성능을 크게 향상시키는 '알케미(Alchemy)'라는 기법 세트를 소개한다. 데이터 증강, 손실 최적화, 아키텍처 개선의 조합을 적용함으로써, 이 방법은 CUTE-80에서 89.6%의 정확도, Total-Text에서 76.3%의 정확도를 기록하며, 보류된 테스트 세트에서 74.3%의 정확도로 ICDAR 2019 비정형 텍스트 챌린지에서 우승을 차지했다.

ABSTRACT

Reading text from natural images is challenging due to the great variety in text font, color, size, complex background and etc.. The perspective distortion and non-linear spatial arrangement of characters make it further difficult. While rectification based method is intuitively grounded and has pushed the envelope by far, its potential is far from being well exploited. In this paper, we present a bag of tricks that prove to significantly improve the performance of rectification based method. On curved text dataset, our method achieves an accuracy of 89.6% on CUTE-80 and 76.3% on Total-Text, an improvement over previous state-of-the-art by 6.3% and 14.7% respectively. Furthermore, our combination of tricks helps us win the ICDAR 2019 Arbitrary-Shaped Text Challenge (Latin script), achieving an accuracy of 74.3% on the held-out test set. We release our code as well as data samples for further exploration at this https URL

연구 동기 및 목표

  • perspective 왜곡, 비선형적 공간 배치, 폰트, 색상, 배경의 시각적 변동성으로 인해 발생하는 불규칙한 시나리오 텍스트 인식의 과제를 해결하기 위해.
  • 직관적으로 타당한데도 실무에서 미흡하게 활용되고 있는 정규화 기반 방법의 잠재력을 탐색하고 활용하기 위해.
  • 기하학적 복잡성이 높아 전통적 방법이 어려움을 겪는 곡선형 및 비정형 텍스트 벤치마크에서 성능을 향상시키기 위해.
  • 표준 벤치마크에서 최고 성능을 내고 ICDAR 2019 비정형 텍스트 챌린지(라틴 문자)에서 승리하기 위해.

제안 방법

  • 불규칙한 텍스트의 기하학적 변환을 먼저 추정한 후, 텍스트 라인을 정규화하여 인식을 더 쉽게 만드는 정규화 기반 프레임워크를 활용한다.
  • 다양한 텍스트 형태와 왜곡을 시뮬레이션하기 위해 새로운 데이터 증강 전략을 적용하여, 복잡한 공간적 변형에 대한 일반화 능력을 향상시킨다.
  • 인식과 정규화 감독을 결합한 다중 작업 손실을 훈련 과정에 통합하여 예측된 텍스트와 진짜 텍스트 간의 정렬을 향상시킨다.
  • 주의 메커니즘과 특징 정련 모듈을 사용하여 곡선과 시점 왜곡에 대한 강건성을 높이기 위해 아키텍처 구성 요소를 최적화한다.
  • 기하 보정과 텍스트 인식을 동시에 최적화할 수 있도록, 엔드 투 엔드로 미분 가능한 정규화를 활용한다.
  • 훈련의 안정성 향상과 국소화 정확도 향상을 위해 적응형 샘플링 및 공간 변환 네트워크 같은 기법을 사용한다.

실험 결과

연구 질문

  • RQ1자연 환경의 매우 불규칙하고 곡선형 텍스트를 다룰 수 있도록 정규화 기반 방법을 체계적으로 어떻게 향상시킬 수 있는가?
  • RQ2데이터 증강, 손실 함수, 모델 아키텍처의 조합 중에서 불규칙한 텍스트 인식에서 성능 향상에 가장 기여하는 조합은 무엇인가?
  • RQ3일관된 성능 향상을 달성하기 위해 CUTE-80과 Total-Text와 같은 다양한 벤치마크에 대해 통합된 기법 세트가 항상 효과를 발휘할 수 있는가?
  • RQ4정규화 기반 방법이 비정형 텍스트 인식 작업에서 비정규화 기반 접근법을 얼마나 뛰어나게 성능을 낼 수 있는가?
  • RQ5ICDAR 2019 비정형 텍스트 챌린지에서 성능 향상에 가장 기여한 특정 구성 요소는 무엇인가?

주요 결과

  • 제안된 방법은 CUTE-80 데이터셋에서 89.6%의 정확도를 달성하여 이전 최고 성능 대비 6.3% 향상되었다.
  • Total-Text 데이터셋에서는 76.3%의 정확도를 기록하여 이전 방법 대비 14.7% 향상되었다.
  • 이 방법은 ICDAR 2019 비정형 텍스트 챌린지(라틴 문자)에서 1등을 차지했으며, 보류된 테스트 세트에서 74.3%의 정확도를 기록했다.
  • Alchemy에 포함된 기법 조합은 여러 벤치마크에서 일관된 성능 향상을 보이며, 불규칙한 텍스트 인식에 광범위하게 적용 가능함을 시사한다.
  • 제거 실험 결과, 데이터 증강과 손실 최적화가 전체 성능 향상에서 가장 큰 영향을 미친다는 것이 확인되었다.
  • 코드와 데이터 샘플의 공개로, 정규화 기반의 시나리오 텍스트 인식 분야에서 재현 가능성과 향후 연구가 가능해졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.