[논문 리뷰] Scene Text Detection and Recognition: The Deep Learning Era
이 설문조사는 딥 러닝이 장면 문자 탐지와 인식으로 어떻게 변모시켰는지 종합하고, 방법론, 데이터셋, 벤치마크, 미래 추세의 분류체계를 제시한다.
With the rise and development of deep learning, computer vision has been tremendously transformed and reshaped. As an important research area in computer vision, scene text detection and recognition has been inescapably influenced by this wave of revolution, consequentially entering the era of deep learning. In recent years, the community has witnessed substantial advancements in mindset, approach and performance. This survey is aimed at summarizing and analyzing the major changes and significant progresses of scene text detection and recognition in the deep learning era. Through this article, we devote to: (1) introduce new insights and ideas; (2) highlight recent techniques and benchmarks; (3) look ahead into future trends. Specifically, we will emphasize the dramatic differences brought by deep learning and the grand challenges still remained. We expect that this review paper would serve as a reference book for researchers in this field. Related resources are also collected and compiled in our Github repository: https://github.com/Jyouhou/SceneTextPapers.
연구 동기 및 목표
- 딥 러닝이 가져온 장면 문자 탐지 및 인식의 주요 변화와 진전을 요약한다.
- 해당 분야에서 사용되는 데이터셋, 벤치마크, 평가 프로토콜을 검토한다.
- 장면 문자 이해의 현황, 도전과제 및 잠재적 미래 경향을 분석한다.
- 통합된 개요 및 저장소를 통해 연구자들에게 통찰과 참고 자료를 제공한다.
제안 방법
- 방법을 네 가지 범주로 분류한다: 텍스트 탐지, 텍스트 인식, 엔드-투-엔드 시스템, 보조 방법.
- 다단계 파이프라인에서 단일 단계 및 다각형 기반 표현으로의 탐지 방법의 진화를 설명한다.
- CTC 및 인코더–디코더 접근법을 기반으로 한 인식 프레임워크와 보정으로 비정형 텍스트에 대한 적응을 설명한다.
- 학습 강화를 위한 합성 데이터 생성 및 교차 데이터셋 평가 등의 보조 기술을 논의한다.
- 데이터셋과 평가 프로토콜을 요약하고 향후 연구 방향에 대한 관점을 제시한다.
실험 결과
연구 질문
- RQ1딥 러닝이 장면 문자 탐지 및 인식의 방법론과 성능을 어떻게 변화시켰는가?
- RQ2야생에서 텍스트를 탐지하고 인식하는 데 사용되는 지배적인 아키텍처와 표현 방식은 무엇인가?
- RQ3현재 방법은 비정형, 곡선형 및 다방향 텍스트를 직선 텍스트와 비교하여 어떻게 처리하는가?
- RQ4이 분야의 발전을 지원하는 데이터셋, 벤치마크 및 보조 데이터는 무엇이며, 그 한계는 무엇인가?
- RQ5장면 문자 탐지 및 인식의 주요 미해결 과제와 향후 경향은 무엇인가?
주요 결과
- 딥 러닝은 엔드 투 엔드로 학습 가능한 파이프라인을 가능하게 하고 핸드 크래프드 피처에 대한 의존도를 줄임으로써 이 분야를 변화시켰다.
- 탐지 방법은 다단계의 텍스트 중심 파이프라인에서 단일 단계 검출기 및 비정형 텍스트를 위한 다각형/세분화 기반 표현으로 진화했다.
- 인식 접근법은 주로 CTC 또는 인코더–디코더 프레임워크에 의존하며, 곡선/비정형 텍스트를 처리하기 위한 정정(교정) 기법을 사용한다.
- 보조 기술은 특히 합성 데이터와 교차 데이터셋 평가가 진행 속도와 일반화에 기여했다.
- 데이터셋 및 평가 프로토콜에 대한 포괄적 검토는 향후 추세와 연구 방향에 대한 전망과 함께한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.