[논문 리뷰] COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images
COCO-Text는 자연 이미지에서 텍스트를 탐지하고 인식하기 위한 대규모의 풍부한 주석 데이터셋을 도입하여, 주석을 전사 외에 가독성, 글꼴, 텍스트 유형을 포함하도록 확장하고, 이 데이터에 대해 최첨단 사진 OCR 방법을 평가합니다.
This paper describes the COCO-Text dataset. In recent years large-scale datasets like SUN and Imagenet drove the advancement of scene understanding and object recognition. The goal of COCO-Text is to advance state-of-the-art in text detection and recognition in natural images. The dataset is based on the MS COCO dataset, which contains images of complex everyday scenes. The images were not collected with text in mind and thus contain a broad variety of text instances. To reflect the diversity of text in natural scenes, we annotate text with (a) location in terms of a bounding box, (b) fine-grained classification into machine printed text and handwritten text, (c) classification into legible and illegible text, (d) script of the text and (e) transcriptions of legible text. The dataset contains over 173k text annotations in over 63k images. We provide a statistical analysis of the accuracy of our annotations. In addition, we present an analysis of three leading state-of-the-art photo Optical Character Recognition (OCR) approaches on our dataset. While scene text detection and recognition enjoys strong advances in recent years, we identify significant shortcomings motivating future work.
연구 동기 및 목표
- 자연스러운 풍경에서의 텍스트를 대규모로 다양하게 수집한 데이터셋을 제공하여 장면 텍스트 탐지 및 인식을 개선한다.
- 경계 상자와 세밀한 속성(가독성, 기계 인쇄 대 필기체, 스크립트)을 포함하여 텍스트 인스턴스를 주석한다.
- 데이터셋에서 최첨단의 사진 OCR 방법을 평가하고 실제 세계 어플리케이션에서 남아 있는 격차를 확인한다.]
- method':['다중 단계의 크라우드소싱 파이프라인을 사용하여 MS COCO 이미지에 텍스트 영역을 주석한다.','다수의 사진 OCR 시스템과 인간 주석가의 OCR 출력물을 통합하여 텍스트 영역을 탐지하고 refine한다.','가독성, 스크립트, 유형(기계 인쇄 vs 필기체)으로 텍스트 영역을 분류한다.','가독 가능한 텍스트의 전사를 수집하고 전사 반복 과정에서 읽기 불가 텍스트를 표시한다.','held-out 검증 세트에서 ICDAR-스타일 지표를 사용하여 탐지, 전사 및 엔드투엔드 성능을 평가한다.']
- research_questions':['자연스러운 장면에서의 텍스트가 큰 MS COCO 기반 데이터셋으로 주석될 때 얼마나 다양한가?','크라우드 워커와 OCR 시스템이 합쳐져 자연 이미지에서 다양한 텍스트 유형과 가독성 수준을 신뢰성 있게 탐지하고 분류할 수 있는가?','특히 읽을 수 없는 텍스트와 탐지에서의 재현율(recall) 등 무제약 장면 텍스트에서 최첨단 사진 OCR 방법의 현재 한계는 무엇인가?','COCO의 객체 맥락이 자연 이미지의 텍스트 존재와 어떤 관계가 있는가?','현실 세계 시나리오에서 강력한 엔드 투 엔드 텍스트 스포팅에 다가가기 위해 어떤 개선이 필요한가?']
- key_findings':['COCO-Text는 경계 상자 및 세밀한 속성에 걸쳐 173,589개의 텍스트 주석을 가진 63,686장의 이미지를 포함한다.','대략 50%의 COCO-Text 이미지에 텍스트가 없고, 전체적으로 이미지당 2.73개의 텍스트 인스턴스(텍스트가 있는 이미지의 경우 5.46개)이다.','텍스트 속성으로 가독성(60.3% 가독, 39.7% 비가독), 유형(기계 인쇄 대 필기체), 스크립트(영어 대 비영어) 등이 포함된다.','세 가지 선도적인 사진 OCR 시스템은 텍스트 탐지에서 높은 정밀도는 달성했으나 재현율이 낮아, 특히 읽을 수 없는 텍스트의 경우 여전히 상당한 간격이 남아 있음을 보여주었다.','크라우드 주석가들은 모든 텍스트 영역의 57%를 탐지했으며, 읽을 수 있는 텍스트에서의 성공률은 84%로 읽을 수 없는 텍스트의 39%보다 높았다.','엔드 투 엔드 인식 결과는 읽을 수 있는 기계 인쇄 및 필기 영어 텍스트에 한정되었으며, 데이터 세트의 풍부함과 현재 OCR 능력 간의 격차를 강조한다.']
- table_headers:[]
- table_rows:[]}
제안 방법
- Annotate MS COCO images with text regions using a multi-stage crowd-sourcing pipeline.
- Incorporate OCR outputs from multiple photo OCR systems and human annotators to detect and refine text regions.
- Classify text regions by legibility, script, and type (machine printed, handwritten, others).
- Collect transcriptions for legible text and flag illegible text during transcription iterations.
- Evaluate detection, transcription, and end-to-end performance using ICDAR-style metrics on a held-out validation set.
실험 결과
연구 질문
- RQ1How diverse is text in natural scenes when annotated on a large MS COCO-based dataset?
- RQ2Can crowd workers together with OCR systems reliably detect and classify a wide range of text types and legibility levels in natural images?
- RQ3What are the current limitations of state-of-the-art photo OCR methods on unconstrained scene text, particularly for illegible text and recall in detection?
- RQ4How does context (objects in COCO) relate to the presence of text in natural images?
- RQ5What improvements are needed to approach robust end-to-end text spotting in real-world scenarios?
주요 결과
- COCO-Text contains 63,686 images with 173,589 text annotations across bounding boxes and fine-grained attributes.
- About 50% of COCO-Text images contain no text, while 2.73 text instances per image overall (5.46 per images with text).
- Text attributes include legibility (60.3% legible, 39.7% illegible), type (machine printed vs handwritten), and script (English vs not English).
- Three leading photo OCR systems achieved high precision but poor recall for text detection, especially for illegible text, highlighting substantial remaining gaps.
- Crowd annotators detected 57% of all text regions, with higher success on legible text (84%) than illegible text (39%).
- End-to-end recognition results were limited to legible machine-printed and handwritten English text, underscoring the gap between dataset richness and current OCR capabilities.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.