[논문 리뷰] SVTR: Scene Text Recognition with a Single Visual Model
SVTR은 이미지를 문자 구성요소로 패치하고 로컬 및 글로벌 믹싱 블록을 적용하여 장면 텍스트를 인식하는 단일 시각 모델을 제안하며, 별도의 시퀀스 모델이 필요 없도록 한다. 이는 자원 제약 상황을 위한 아주 작은 변형을 포함해 더 빠른 추론 속도로 최첨단 수준의 정확성과 경쟁력을 달성한다.
Dominant scene text recognition models commonly contain two building blocks, a visual model for feature extraction and a sequence model for text transcription. This hybrid architecture, although accurate, is complex and less efficient. In this study, we propose a Single Visual model for Scene Text recognition within the patch-wise image tokenization framework, which dispenses with the sequential modeling entirely. The method, termed SVTR, firstly decomposes an image text into small patches named character components. Afterward, hierarchical stages are recurrently carried out by component-level mixing, merging and/or combining. Global and local mixing blocks are devised to perceive the inter-character and intra-character patterns, leading to a multi-grained character component perception. Thus, characters are recognized by a simple linear prediction. Experimental results on both English and Chinese scene text recognition tasks demonstrate the effectiveness of SVTR. SVTR-L (Large) achieves highly competitive accuracy in English and outperforms existing methods by a large margin in Chinese, while running faster. In addition, SVTR-T (Tiny) is an effective and much smaller model, which shows appealing speed at inference. The code is publicly available at https://github.com/PaddlePaddle/PaddleOCR.
연구 동기 및 목표
- 하이브리드 CNN/RNN 또는 인코더-디코더 프레임워크 대신 단일 시각 모델로 정확한 장면 텍스트 인식을 촉진하고 가능하게 한다.
제안 방법
- 점진적 중첩 임베딩을 통한 문자 구성 요소로의 패치 기반 이미지 토큰화.
- 로컬(스트로크 유사) 및 글로벌(문자 간) 믹싱 블록을 갖춘 높이 진행형의 3단계 백본.
- 멀티스케일 표현을 구축하고 선형 예측을 통해 최종 문자 시퀀스를 생성하기 위한 병합 및 결합 연산.
- 단일 시각 모델이 복잡한 언어 인지 파이프라인을 대체하여 다국어 인식을 가능하게 한다.
- 용량과 속도 특성이 증가하는 모델 변형 SVTR-T, SVTR-S, SVTR-B, SVTR-L
실험 결과
연구 질문
- RQ1단일 시각 모델이 장면 텍스트 인식에서 언어 보강 또는 교차 모달 모델과 경쟁력 있거나 더 높은 정확도를 달성할 수 있는가?
- RQ2로컬 및 글로벌 구성요소 수준의 믹싱 블록이 다단계 문자 특징 인식을 효과적으로 가능하게 하는가?
- RQ3패치 기반의 다단계 처리와 병합/결합이 영어와 중국어 장면 텍스트 인식을 충분히 견고하게 하는가?
- RQ4SVTR 변형들 간의 모델 크기, 정확도 및 추론 속도 간의 트레이드오프는 무엇인가?
주요 결과
- SVTR은 영어 벤치마크에서 단일 시각 모델로 경쟁력 있는 정확도를 달성하고 중국어 텍스트 인식에서 우수한 결과를 거둔다.
- SVTR-L은 강력한 정확도를 제공하면서도 많은 비교 방법들보다 빠르게 실행된다.
- SVTR-T는 효과적이고 상당히 작은 모델을 제공하며 추론 속도가 빠르다(이미지당 약 4.5 ms, NVIDIA 1080Ti에서).
- 제안된 로컬 및 글로벌 믹싱 블록과 다중 스케일 백본은 다층 문자 특징 인식을 가능하게 한다(스트로크 유사 로컬 패턴과 문자 간 의존성).
- 점진적 중첩 패치 임베딩과 단계별 높이 감소(병합)가 효율성과 정확도에 기여하며, 패치 임베딩 선택과 믹싱 블록 치환의 이점을 입증하는 삭제 실험(ablation)이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.