Skip to main content
QUICK REVIEW

[논문 리뷰] Sparse arrays of signatures for online character recognition

Benjamin Graham|arXiv (Cornell University)|2013. 08. 01.
Handwritten Text Recognition Techniques참고 문헌 12인용 수 89
한 줄 요약

이 논문은 온라인 문자 인식을 위한 컨볼루션 신경망(CNN)에 대해 펜 스트로크 궤적의 반복 적분인 경로 서명을 희소이고 고차원적인 특징으로 사용하는 것을 제안한다. 펜의 위치, 방향, 곡률을 희소한 3차원 입력 텐서로 인코딩함으로써 더 깊고 정확도가 높은 CNN을 가능하게 하였으며, CASIA-OLHWDB1.1 중화자료셋에서 3.58%의 테스트 오차를 기록하여 이전 작업의 5.61%보다 유의미하게 뛰어난 성능을 달성하였다.

ABSTRACT

In mathematics the signature of a path is a collection of iterated integrals, commonly used for solving differential equations. We show that the path signature, used as a set of features for consumption by a convolutional neural network (CNN), improves the accuracy of online character recognition---that is the task of reading characters represented as a collection of paths. Using datasets of letters, numbers, Assamese and Chinese characters, we show that the first, second, and even the third iterated integrals contain useful information for consumption by a CNN. On the CASIA-OLHWDB1.1 3755 Chinese character dataset, our approach gave a test error of 3.58%, compared with 5.61% for a traditional CNN [Ciresan et al.]. A CNN trained on the CASIA-OLHWDB1.0-1.2 datasets won the ICDAR2013 Online Isolated Chinese Character recognition competition. Computationally, we have developed a sparse CNN implementation that make it practical to train CNNs with many layers of max-pooling. Extending the MNIST dataset by translations, our sparse CNN gets a test error of 0.31%.

연구 동기 및 목표

  • 수학적 경로 서명을 통해 입력 표현을 향상시켜 온라인 문자 인식 정확도를 향상시키기.
  • 고해상도 문자 데이터에 대한 깊은 CNN 학습의 계산적 제약을 해결하기 위해 경로 서명 특징의 희소성 활용.
  • 3차까지의 고차항 반복 적분이 일반화에 유용한 분류 정보를 포함하고 있음을 입증하기.
  • 입력 특징의 희소성을 활용해 희소 CNN 구현을 개발함으로써 더 깊은 CNN과 광범위한 풀링 레이어 학습 가능하게 하기.
  • 최소한의 데이터 증강을 사용하여 중국어, 아삼어, 라틴 문자 체계를 포함한 다양한 데이터셋에서 최신 기술 성능 달성하기.

제안 방법

  • 펜 스트로크 궤적의 반복 적분을 계산하여 차수 $ m $까지의 고차원 특징 표현을 생성한다.
  • 각 문자를 크기 $ N \times N \times M $인 희소 3차원 텐서로 표현하며, 여기서 $ M = 1 + 2 + 2^2 + \dots + 2^m $이며, 비영인 값은 스트로크 경로에만 존재한다.
  • 희소 입력을 효율적으로 처리하기 위해 비영인 활성화를 메모이징하는 방식으로 설계된, 교차하는 컨볼루션 및 풀링 레이어를 갖는 희소 CNN 아키텍처(DeepCNet)를 사용한다.
  • 학습 중 애핀 변환(스케일링, 회전, 이동)을 통한 데이터 증강을 적용하여 일반화 성능 향상.
  • 과적합 방지를 위해 다양한 레이어에 드롭아웃(0.1에서 0.5)을 적용하여 정규화.
  • 입력 크기 $ N \approx 3n $로 설정하여 네트워크 깊이를 최적화함으로써 충분한 수신장과 경로 다양성을 확보한다. 여기서 $ n $은 문자의 크기이다.

실험 결과

연구 질문

  • RQ11차, 2차, 3차 반복 적분을 포함한 고차 경로 서명이 기존 이미지 기반 표현을 초월해 온라인 문자 인식의 일반화 성능을 향상시킬 수 있는가?
  • RQ2입력 텐서의 희소성이 기존의 밀도 기반 구현보다 더 깊은 CNN과 더 많은 풀링 레이어를 학습 가능하게 하는가?
  • RQ3서명 절단 수준 $ m $을 증가시킬 경우 인식 정확도에 어떤 영향을 미치며, 더 높은 $ m $의 계산 비용은 정당한가?
  • RQ4서명 기반 입력에 대해 훈련된 희소 CNN이 CASIA-OLHWDB1.1과 같은 도전적인 데이터셋에서 밀도 기반 CNN을 능가할 수 있는가?
  • RQ5경로 서명과 희소 CNN의 조합이 라틴, 아랍 숫자, 아삼어, 중국어를 포함한 다양한 글자 체계에서 효과적인가?

주요 결과

  • CASIA-OLHWDB1.1 데이터셋에서 제안된 방법은 기존의 밀도 기반 CNN을 사용한 연구의 5.61% 대비 3.58%의 테스트 오차를 기록하였다.
  • 183개 클래스를 가진 아삼어 데이터셋에서 $ m $를 0에서 3으로 증가시킬 경우, $ k=15 $개의 훈련 샘플을 사용할 때 테스트 오차가 48.9%에서 34.8%로 감소하였다.
  • 데이터 증강을 적용한 결과, 아삼어 데이터셋의 테스트 오차는 $ m=3 $일 때 11.0%로 감소하였으며, 서명 특징과 데이터 증강의 융합 효과를 입증하였다.
  • Pendigits 데이터셋에서 $ m $를 0에서 3으로 증가시킬 경우, 소규모 네트워크로는 테스트 오차가 3.37%에서 1.09%로 감소하였고, 더 큰 네트워크와 증강 기법을 적용할 경우 0.40%로 감소하였다.
  • 희소 CNN 구현은 초기 레이어에서 비영인 입력 영역에만 집중함으로써 계산 비용을 감소시켜 최대 6단계의 풀링 레이어를 가진 깊은 네트워크 학습을 가능하게 하였다.
  • 레이어 간에 드롭아웃 비율을 0.1에서 0.5로 점진적으로 증가시키자 CASIA 데이터셋에서 테스트 오차는 4.01%에서 3.58%로 감소하였으며, 효과적인 정규화가 이루어졌음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.