QUICK REVIEW

[논문 리뷰] ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)

Baoguang Shi, Cong Yao|arXiv (Cornell University)|2017. 08. 31.

Handwritten Text Recognition Techniques참고 문헌 7인용 수 27

한 줄 요약

이 논문은 ICDAR2017 RCTW-17 경쟁 대회를 제시하며, 자연 이미지 12,263장에 대해 중국어 텍스트 라인을 주석 처리한 대규모 데이터셋을 소개한다. 텍스트 위치 지정을 위한 다각형 기반 검출 및 엔드 투 엔드 인식이라는 두 가지 과제를 제안하며, Faster R-CNN 및 CRNN와 같은 고급 딥 러닝 모델을 활용하여 야외에서의 중국어 텍스트에 초점을 맞춘 새로운 벤치마크에서 최신 기술 성능을 달성한다.

ABSTRACT

Chinese is the most widely used language in the world. Algorithms that read Chinese text in natural images facilitate applications of various kinds. Despite the large potential value, datasets and competitions in the past primarily focus on English, which bares very different characteristics than Chinese. This report introduces RCTW, a new competition that focuses on Chinese text reading. The competition features a large-scale dataset with 12,263 annotated images. Two tasks, namely text localization and end-to-end recognition, are set up. The competition took place from January 20 to May 31, 2017. 23 valid submissions were received from 19 teams. This report includes dataset description, task definitions, evaluation protocols, and results summaries and analysis. Through this competition, we call for more future research on the Chinese text reading problem. The official website for the competition is http://rctw.vlrlab.net

연구 동기 및 목표

영어와는 달리 문자 집합 크기, 단어 분할 방식, 시각적 구조에서 크게 다름에도 불구하고, 중국어 스트리트 텍스트 인식을 위한 대규모로 잘 주석 처리된 데이터셋의 부족을 해결하기 위해.
중국어 텍스트의 고유한 과제에 맞춰 표준화된 평가 프로토콜을 적용한 경쟁을 통해 중국어 텍스트 인식 분야의 연구를 촉진하기 위해.
자연 이미지에 포함된 중국어 텍스트에 대한 텍스트 위치 지정 및 엔드 투 엔드 인식을 위한 벤치마크를 구축하여, 실제 적용이 가능한 강력한 모델 개발을 장려하기 위해.
텍스트 라인 누락 및 유사한 문자 오분류와 같은 검출 및 인식의 일반적인 실패 원인을 분석하여 향후 연구를 안내하기 위해.

제안 방법

12,263장의 자연 풍경 및 디지털 자료에서 수집된 대규모 데이터셋인 CTW-12k가 수집되었으며, 다각형을 사용한 텍스트 라인 주석과 UTF-8 인코딩 전사본이 포함되어 있다.
텍스트 위치 지정은 다각형 기반 검출을 통해 수행되었으며, 예측된 다각형과 진짜 다각형 간의 겹침 정도는 Shapely 라이브러리를 사용해 교차율(Intersection-over-Union, IoU)로 평가되었다.
검출 과제는 ResNet-101을 백본으로 사용하고 상향 경로에서의 특징 융합을 통한 소형 텍스트 검출 성능 향상을 위해 수정된 Faster R-CNN를 사용하였다.
엔드 투 엔드 인식을 위해, 컨볼루션층과 양방향 LSTM층을 갖춘 CRNN 기반 모델을 사용하였으며, 사전에 문자 수준 주석이 필요 없는 시퀀스 변환을 위해 CTC 손실을 적용하였다.
기준 방법으로는 SegLink를 사용한 검출과 수정된 CRNN를 사용한 인식이 구현되었으며, 대규모 합성 중국어 어휘 데이터셋으로 사전 학습된 모델을 사용하였다.
평가에서는 IoU 임계값 0.5를 사용한 평균 평균 정확도(mAP)를 사용하였으며, 시각화 및 분석을 위해 F-스코어 최대화를 위한 신뢰도 임계값을 활용해 결과를 필터링하였다.

실험 결과

연구 질문

RQ1기존의 객체 검출 프레임워크는 자연 이미지 내에서 불규칙적이고 긴, 작은 중국어 텍스트 라인을 얼마나 잘 검출하는가?
RQ2특히 시점 왜곡과 문자 유사성에 기인한 중국어 텍스트 위치 지정 및 인식의 주요 실패 원인은 무엇인가?
RQ3실제 환경에서 텍스트 위치 지정의 품질이 엔드 투 엔드 인식 성능에 얼마나 큰 영향을 미치는가?
RQ4합성 데이터로 학습된 엔드 투 엔드 모델은 실제 다양하고 다양한 중국어 스트리트 텍스트에 효과적으로 일반화되는가?
RQ5기본 검출 아키텍처로는 어떤 과제가 큰 가로세로 비율 또는 분할된 레이아웃을 가진 텍스트를 검출할 때 발생하는가?

주요 결과

경쟁에 총 19개 팀이 유효한 결과를 제출하여, 중국어 텍스트 인식의 고유한 과제에도 불구하고 연구자 커뮤니티의 높은 관심을 보였음을 나타낸다.
디지털로 생성된 이미지에서는 자연 이미지보다 검출 성능이 뚜렷이 높았는데, 이는 더 깔끔한 배경과 단순한 폰트 때문이었다.
일반적인 실패 원인은 장거리 텍스트 라인의 완전한 검출 실패로, 높은 가로세로 비율 영역에서 일반화 능력이 떨어져 조각나거나 부분적으로만 검출되는 경우가 많았다.
재현율을 극대화하기 위해 높은 빈도로 저신뢰도의 중복 검출이 제출되었지만, 표준 비최대 억제(NMS) 알고리즘이 작은 겹치는 가짜 양성 결과를 효과적으로 억제하지 못했다.
정확한 위치 지정이 이루어져도 시점 왜곡과 유사한 외형을 가진 중국어 문자 간의 혼동으로 인해 인식 성능이 심각하게 저하되었다.
기준 방법은 검출 과제에서 mAP 0.781, 인식 과제에서 정확도 0.821을 기록하여 향후 모델 개발을 위한 강력한 기준점이 되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.