[논문 리뷰] Text Recognition in the Wild: A Survey
장면 텍스트 인식(STR)에 대한 포괄적 고찰로, 기본 문제, 딥러닝 기반 방법론, 데이터셋, 평가 프로토콜, 그리고 향후 방향을 자세히 다룬다.
The history of text can be traced back over thousands of years. Rich and precise semantic information carried by text is important in a wide range of vision-based application scenarios. Therefore, text recognition in natural scenes has been an active research field in computer vision and pattern recognition. In recent years, with the rise and development of deep learning, numerous methods have shown promising in terms of innovation, practicality, and efficiency. This paper aims to (1) summarize the fundamental problems and the state-of-the-art associated with scene text recognition; (2) introduce new insights and ideas; (3) provide a comprehensive review of publicly available resources; (4) point out directions for future work. In summary, this literature review attempts to present the entire picture of the field of scene text recognition. It provides a comprehensive reference for people entering this field, and could be helpful to inspire future research. Related resources are available at our Github repository: https://github.com/HCIILAB/Scene-Text-Recognition.
연구 동기 및 목표
- 장면 텍스트 인식(STR)의 기본 문제와 도전을 요약한다.
- 엔드-투-엔드 STR 시스템과 그 구조적 변형을 검토한다.
- STR를 위한 공개 데이터셋, 벤치마크, 평가 프로토콜을 정리한다.
- STR를 위한 딥러닝의 최근 발전을 강조하고 향후 방향을 논의한다.
제안 방법
- STR 접근법을 세분화 기반과 비세분화(세그먼트 없는) 범주로 분류한다.
- 세그먼트-프리 파이프라인에서의 전처리, 특징 표현, 시퀀스 모델링, 예측 단계를 설명한다.
- 왜곡 보정, 텍스트 향상, 배경 제거를 전처리 보조로 논의한다.
- 수작업 특성에서 딥러닝 기반 방법과 엔드-투-엔드 시스템으로의 진화를 요약한다.
- 공개 데이터셋, 코드, 베이스라인을 포함한 자원 중심의 리뷰를 제공한다.
실험 결과
연구 질문
- RQ1장면 텍스트 인식(문자 위치화/localization, 검증, 탐지, 분할, 인식, 엔드투엔드 시스템)의 핵심 문제와 단계는 무엇이며, 각 단계의 고유한 도전은 무엇인가?
- RQ2딥러닝과 함께 엔드투엔드 STR 시스템은 어떻게 진화했고, 세분화 기반과 비세분화 방법의 강점/한계는 무엇인가?
- RQ3STR에 표준적으로 사용되는 데이터셋, 벤치마크, 평가 프로토콜은 무엇이며 방법 간 비교는 어떻게 되나?
- RQ4정확도와 효율성을 개선하기 위해 STR에서 남아 있는 향후 방향과 해결되지 않은 문제는 무엇인가?
주요 결과
- 딥러닝은 자동 특징 학습과 엔드-투-엔드 최적화를 가능하게 하여 STR 성능을 크게 향상시켰다.
- 세그먼트-프리 방법(인코더-디코더 아키텍처)은 문자 단위 분할 없이 비정형 텍스트를 다루는 데 두드러지게 부상했다.
- 왜곡 보정(Rectification), TextSR, 배경/전경 전처리는 특히 비정형 텍스트의 왜곡과 잡음을 다루는 데 중요한 전처리 구성 요소이다.
- 다양한 데이터셋과 평가 프로토콜이 존재하며, 실시간 성능, 확장성, 배경 복잡성에 대한 강인성에 관한 논의가 지속되고 있다.
- 이 리뷰는 공정한 방법 비교를 위한 기준선을 통합하고 재현 가능한 연구를 위한 공개 자원과 코드 저장소를 지적한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.