[논문 리뷰] Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes
Mask TextSpotter를 도입하는 엔드투엔드 학습 가능한 네트워크로, Mask R-CNN에서 영감을 받아 인스턴스 및 문자 분할을 통합 프레임워크에서 수행하여 임의의 형태의 현장 텍스트를 감지하고 인식합니다. 수평, 방향성 텍스트 및 곡선 텍스트 벤치마크에서 최첨단 결과를 달성합니다.
Recently, models based on deep neural networks have dominated the fields of scene text detection and recognition. In this paper, we investigate the problem of scene text spotting, which aims at simultaneous text detection and recognition in natural images. An end-to-end trainable neural network model for scene text spotting is proposed. The proposed model, named as Mask TextSpotter, is inspired by the newly published work Mask R-CNN. Different from previous methods that also accomplish text spotting with end-to-end trainable deep neural networks, Mask TextSpotter takes advantage of simple and smooth end-to-end learning procedure, in which precise text detection and recognition are acquired via semantic segmentation. Moreover, it is superior to previous methods in handling text instances of irregular shapes, for example, curved text. Experiments on ICDAR2013, ICDAR2015 and Total-Text demonstrate that the proposed method achieves state-of-the-art results in both scene text detection and end-to-end text recognition tasks.
연구 동기 및 목표
- 비정형 텍스트 형태(수평, 방향성, 곡선)를 처리하는 엔드투엔드 텍스트 스포팅의 필요성 제시.
- 문자 인식과 텍스트 인스턴스 검출을 함께 수행하는 통합 프레임워크 개발.
- recognition를 위한 정확한 경계 상자 의존도를 줄이고 인스턴스 분할을 활용.
- 커리큘럼식 고정 해제와 같은 학습 단계 없이 완전히 엔드투엔드 최적화를 가능하게 하는 학습 절차 제공.
- 다양한 벤치마크에서 텍스트 형태와 어휘 설정에 대한 강건함을 보여주기 위한 평가.
제안 방법
- 특징 피라미드 백본(ResNet-50 + FPN)을 사용하는 Mask R-CNN 스타일 아키텍처를 채택합니다.
- RPN을 사용해 텍스트 제안 영역을 생성하고 RoI Align으로 정밀한 영역 특징을 얻습니다.
- 글로벌 텍스트 인스턴스 맵과 36개의 문자 확률 맵, 문자 배경 맵(총 38 채널 출력)을 생성하는 마스크 분기점을 도입합니다.
- RPN, Fast R-CNN, 및 두 부분으로 구성된 마스크 손실(글로벌 텍스트 및 문자 분할)을 결합한 다중 작업 손실을 최적화합니다.
- 다각형을 수평 직사각형으로 변환하고 글로벌/문자 맵을 생성하여 RPN/RCNN 및 마스크 분기의 대상을 생성하며, 추론 시 문자 영역을 시퀀스로 디코딩하기 위한 픽셀 보 voting 알고리즘을 사용합니다.
- 추론 시 Fast R-CNN 제안을 이용해 글로벌 및 문자 맵을 생성하고, 등고선 추출과 픽셀 보Voting으로 텍스트 다각형과 시퀀스를 추출합니다; 어휘 기반 디코딩을 개선하기 위해 가중 편집 거리(weighted edit distance)를 사용합니다.]
- table_headers: []
- table_rows: []
실험 결과
연구 질문
- RQ1자연 이미지에서 임의의 형태의 텍스트를 함께 탐지하고 인식하는 단일의 엔드투엔드 학습 모델이 가능한가?
- RQ2인스턴스/문자 분할 기반의 스팟팅이 수평, 방향성 및 곡선 텍스트에 대해 이전의 두단계 또는 부분적으로 엔드투엔드 방법보다 우수한가?
- RQ3비정형 텍스트에 대해 1-D 시퀀스 대신 2-D 분할 공간에서 인식이 효과적으로 수행될 수 있는가?
- RQ4공유 피처를 통한 공동 최적화가 탐지와 인식 정확도 모두를 향상시키는가?
- RQ5LEXICON 여부에 따라 표준 벤치마크(ICDAR2013, ICDAR2015, Total-Text)에서 접근 방식이 어떻게 작동하는가?
주요 결과
- ICDAR2013, ICDAR2015, Total-Text에서 텍스트 탐지 및 엔드투엔드 텍스트 스포팅에 대해 최첨단 결과를 달성합니다.
- 수평/방향성 텍스트뿐만 아니라 곡선 텍스트에 대해서도 엔드투엔드 인식을 앞선 방법을 보이며 강력한 성능을 보입니다.
- 텍스트를 인스턴스 분할로 정확하게 감지하고 2-D 문자 맵을 통해 인식할 수 있어 커리큘럼 학습 없이도 엔드투엔드 학습이 가능함을 입증합니다.
- 문자 맵에 대한 픽셀 보 voting으로 문자 시퀀스를 재구성하고, 어휘 기반 디코딩을 위한 가중 편집 거리(weighted edit distance)와 결합합니다.
- 기존 방법과 비교해 더 나은 속도-정확도 트레이드를 제공하며(약 6.9 FPS) 실용적인 효율성을 제시합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.