QUICK REVIEW

[논문 리뷰] Sparse arrays of signatures for online character recognition

Benjamin Graham|arXiv (Cornell University)|2013. 08. 01.

Handwritten Text Recognition Techniques참고 문헌 12인용 수 89

한 줄 요약

이 논문은 온라인 문자 인식을 위한 컨볼루션 신경망(CNN)에 대해 펜 스트로크 궤적의 반복 적분인 경로 서명을 희소이고 고차원적인 특징으로 사용하는 것을 제안한다. 펜의 위치, 방향, 곡률을 희소한 3차원 입력 텐서로 인코딩함으로써 더 깊고 정확도가 높은 CNN을 가능하게 하였으며, CASIA-OLHWDB1.1 중화자료셋에서 3.58%의 테스트 오차를 기록하여 이전 작업의 5.61%보다 유의미하게 뛰어난 성능을 달성하였다.

ABSTRACT

In mathematics the signature of a path is a collection of iterated integrals, commonly used for solving differential equations. We show that the path signature, used as a set of features for consumption by a convolutional neural network (CNN), improves the accuracy of online character recognition---that is the task of reading characters represented as a collection of paths. Using datasets of letters, numbers, Assamese and Chinese characters, we show that the first, second, and even the third iterated integrals contain useful information for consumption by a CNN. On the CASIA-OLHWDB1.1 3755 Chinese character dataset, our approach gave a test error of 3.58%, compared with 5.61% for a traditional CNN [Ciresan et al.]. A CNN trained on the CASIA-OLHWDB1.0-1.2 datasets won the ICDAR2013 Online Isolated Chinese Character recognition competition. Computationally, we have developed a sparse CNN implementation that make it practical to train CNNs with many layers of max-pooling. Extending the MNIST dataset by translations, our sparse CNN gets a test error of 0.31%.

연구 동기 및 목표

수학적 경로 서명을 통해 입력 표현을 향상시켜 온라인 문자 인식 정확도를 향상시키기.
고해상도 문자 데이터에 대한 깊은 CNN 학습의 계산적 제약을 해결하기 위해 경로 서명 특징의 희소성 활용.
3차까지의 고차항 반복 적분이 일반화에 유용한 분류 정보를 포함하고 있음을 입증하기.
입력 특징의 희소성을 활용해 희소 CNN 구현을 개발함으로써 더 깊은 CNN과 광범위한 풀링 레이어 학습 가능하게 하기.
최소한의 데이터 증강을 사용하여 중국어, 아삼어, 라틴 문자 체계를 포함한 다양한 데이터셋에서 최신 기술 성능 달성하기.

제안 방법

펜 스트로크 궤적의 반복 적분을 계산하여 차수 $ m $까지의 고차원 특징 표현을 생성한다.
각 문자를 크기 $ N \times N \times M $인 희소 3차원 텐서로 표현하며, 여기서 $ M = 1 + 2 + 2^2 + \dots + 2^m $이며, 비영인 값은 스트로크 경로에만 존재한다.
희소 입력을 효율적으로 처리하기 위해 비영인 활성화를 메모이징하는 방식으로 설계된, 교차하는 컨볼루션 및 풀링 레이어를 갖는 희소 CNN 아키텍처(DeepCNet)를 사용한다.
학습 중 애핀 변환(스케일링, 회전, 이동)을 통한 데이터 증강을 적용하여 일반화 성능 향상.
과적합 방지를 위해 다양한 레이어에 드롭아웃(0.1에서 0.5)을 적용하여 정규화.
입력 크기 $ N \approx 3n $로 설정하여 네트워크 깊이를 최적화함으로써 충분한 수신장과 경로 다양성을 확보한다. 여기서 $ n $은 문자의 크기이다.

실험 결과

연구 질문

RQ11차, 2차, 3차 반복 적분을 포함한 고차 경로 서명이 기존 이미지 기반 표현을 초월해 온라인 문자 인식의 일반화 성능을 향상시킬 수 있는가?
RQ2입력 텐서의 희소성이 기존의 밀도 기반 구현보다 더 깊은 CNN과 더 많은 풀링 레이어를 학습 가능하게 하는가?
RQ3서명 절단 수준 $ m $을 증가시킬 경우 인식 정확도에 어떤 영향을 미치며, 더 높은 $ m $의 계산 비용은 정당한가?
RQ4서명 기반 입력에 대해 훈련된 희소 CNN이 CASIA-OLHWDB1.1과 같은 도전적인 데이터셋에서 밀도 기반 CNN을 능가할 수 있는가?
RQ5경로 서명과 희소 CNN의 조합이 라틴, 아랍 숫자, 아삼어, 중국어를 포함한 다양한 글자 체계에서 효과적인가?

주요 결과

CASIA-OLHWDB1.1 데이터셋에서 제안된 방법은 기존의 밀도 기반 CNN을 사용한 연구의 5.61% 대비 3.58%의 테스트 오차를 기록하였다.
183개 클래스를 가진 아삼어 데이터셋에서 $ m $를 0에서 3으로 증가시킬 경우, $ k=15 $개의 훈련 샘플을 사용할 때 테스트 오차가 48.9%에서 34.8%로 감소하였다.
데이터 증강을 적용한 결과, 아삼어 데이터셋의 테스트 오차는 $ m=3 $일 때 11.0%로 감소하였으며, 서명 특징과 데이터 증강의 융합 효과를 입증하였다.
Pendigits 데이터셋에서 $ m $를 0에서 3으로 증가시킬 경우, 소규모 네트워크로는 테스트 오차가 3.37%에서 1.09%로 감소하였고, 더 큰 네트워크와 증강 기법을 적용할 경우 0.40%로 감소하였다.
희소 CNN 구현은 초기 레이어에서 비영인 입력 영역에만 집중함으로써 계산 비용을 감소시켜 최대 6단계의 풀링 레이어를 가진 깊은 네트워크 학습을 가능하게 하였다.
레이어 간에 드롭아웃 비율을 0.1에서 0.5로 점진적으로 증가시키자 CASIA 데이터셋에서 테스트 오차는 4.01%에서 3.58%로 감소하였으며, 효과적인 정규화가 이루어졌음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.