QUICK REVIEW

[논문 리뷰] End-to-End Text Recognition with Hybrid HMM Maxout Models

Ouais Alsharif, Joëlle Pineau|arXiv (Cornell University)|2013. 10. 07.

Handwritten Text Recognition Techniques참고 문헌 25인용 수 100

한 줄 요약

이 논문은 글자 및 단어 인식을 위한 하이브리드 HMM-Maxout 모델을 사용한 엔드 투 엔드 텍스트 인식 시스템을 제안한다. 깊이 있는 컨볼루션 Maxout 네트워크에 드롭아웃을 적용하여 고정밀 글자 인식을 달성하고, 확장 가능한, 어휘 효율적인 단어 인식기로 구성되어 있다. 이 시스템은 ICDAR 2003 및 SVT 벤치마크에서 최신 기술 수준의 F-측정치를 달성하였으며, 간단한 MSER 기반 텍스트 검출기를 사용하고 있음에도 불구하고 이전의 엔드 투 엔드 방법들을 능가한다.

ABSTRACT

The problem of detecting and recognizing text in natural scenes has proved to be more challenging than its counterpart in documents, with most of the previous work focusing on a single part of the problem. In this work, we propose new solutions to the character and word recognition problems and then show how to combine these solutions in an end-to-end text-recognition system. We do so by leveraging the recently introduced Maxout networks along with hybrid HMM models that have proven useful for voice recognition. Using these elements, we build a tunable and highly accurate recognition system that beats state-of-the-art results on all the sub-problems for both the ICDAR 2003 and SVT benchmark datasets.

연구 동기 및 목표

엔드 투 엔드 스트리트 텍스트 인식의 과제를 해결하기 위해, 높은 정확도와 효율성을 갖춘 텍스트 검출, 글자 인식, 단어 인식을 통합하는 것.
심층적이고 컨볼루션형 Maxout 네트워크에 광범위한 드롭아웃 정규화를 적용하여 글자 인식 정확도를 향상시키는 것.
큰 어휘 사전과 함께 확장 가능하고, 빠르고 정확하며 고차원 n-gram 언어 모델을 통합할 수 있는 단어 인식기 설계.
다양한 스트리트 텍스트 벤치마크에서 정밀도, 재현도, 속도, F-측정치 간의 균형을 고려한 엔드 투 엔드 시스템 구축.
글자 인식 모듈과 단어 인식 모듈을 모듈형으로 계층적으로 통합할 경우 표준 벤치마크에서 뛰어난 성능을 낼 수 있음을 입증하는 것.

제안 방법

글자 인식 모듈은 과적합을 줄이고 스트리트 텍스트 이미지에서 일반화 능력을 향상시키기 위해 강력한 드롭아웃을 적용한 깊이 있는 컨볼루션 Maxout 네트워크를 사용한다.
단어 인식 모듈은 하이브리드 HMM/Maxout 아키텍처를 활용하여 단어 시퀀스를 문자의 청각 유사 시퀀스로 모델링함으로써 고정밀도의 시퀀스 모델링을 가능하게 한다.
HMM 프레임워크를 통해 어휘에 고차원 n-gram을 통합함으로써, 어휘 크기와 관계없이 일정한 시간 복잡도로 계산이 가능하게 한다.
시각적 유사도와 에디트 거리 기반의 비용 함수를 사용하여 단어 예측을 평가하고, 중복 검출을 걸러내며 비최대 억제(Non-maximum suppression)를 수행한다.
엔드 투 엔드 파이프라인은 MSER를 사용해 텍스트 영역 후보를 제안하고, 그 다음 글자 및 단어 인식 모듈을 거친 후, 비최대 억제 및 에디트 거리 기반 필터링을 통한 후처리를 수행한다.
표준 벤치마크에서 정밀도, 재현도, F-측정치 지표를 사용하여 검출에 50% 겹침 임계값을 적용해 시스템을 훈련 및 평가한다.

실험 결과

연구 질문

RQ1최소한의 사전 처리 조건 하에서, 드롭아웃를 적용한 심층 컨볼루션 Maxout 네트워크가 기존 방법보다 스트리트 텍스트의 글자 인식에서 뛰어난 성능을 보일 수 있는가?
RQ2큰 어휘 사전 크기에 대해 정확성과 확장성 모두를 확보할 수 있는 단어 인식 시스템은 어떻게 설계할 수 있는가?
RQ3하이브리드 HMM/Maxout 모델이 음성 인식에서의 '폰음' 인식과 유사하게 단어 시퀀스를 효과적으로 모델링할 수 있는가?
RQ4글자 인식 및 단어 인식 모듈을 엔드 투 엔드 파이프라인에 통합할 경우, 표준 벤치마크에서 전체 F-측정치 향상 정도는 어느 정도인가?
RQ5매우 정확한 인식 모듈과 조합될 때, MSER와 같은 단순한 텍스트 검출기조차도 최신 기술 수준의 엔드 투 엔드 성능을 달성할 수 있는가?

주요 결과

제안된 글자 인식 모델은 ICDAR 2003 및 SVT 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, 최소한의 사전 처리 조건 하에서도 이전 방법들을 능가하였다.
어휘 크기에 관계없이 일정한 시간 복잡도로 추론가능한 단어 인식 모듈이 입증되어, 큰 어휘 사전에 대해서도 성능 저하 없이 효율적인 확장이 가능하였다.
엔드 투 엔드 시스템은 MSER 기반 텍스트 검출을 사용하고 있음에도 불구하고, 기존 엔드 투 엔드 접근 방식 중에서 ICDAR 2003 및 SVT 벤치마크에서 가장 높은 F-측정치를 기록하였다.
ICDAR 2003 데이터셋에서, 전체 어휘 및 큰 어휘 설정을 포함한 다섯 가지 다른 어휘 시나리오에서 모두 최신 기술 수준의 성능을 달성하였다.
정밀도/재현도 곡선은 다양한 어휘 크기에서 일관된 성능을 보였으며, 이는 단어 인식 구성 요소의 강건성과 확장성을 확인하였다.
시각적 샘플과 정량적 결과는 시스템이 복잡한 배경과 다양한 폰트를 가진 실제 스트리트 텍스트 환경에도 잘 일반화됨을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.