QUICK REVIEW

[논문 리뷰] Drawing and Recognizing Chinese Characters with Recurrent Neural Network

Xu-Yao Zhang, Fei Yin|arXiv (Cornell University)|2016. 06. 21.

Handwritten Text Recognition Techniques인용 수 30

한 줄 요약

이 논문은 LSTM 및 GRU 아키텍처를 사용하여 온라인 손글씨 중국어 문자를 종단 간 인식 및 생성하는 통합된 순환 신경망(RNN) 프레임워크를 제안한다. 이 방법은 ICDAR-2013 데이터셋에서 최신 기술 수준의 인식 정확도를 달성하며, 문자 임bedding과 펜 상태 모델링을 활용한 조건부 생성 모델을 통해 인간이 읽을 수 있고 인식 가능한 문자를 생성한다.

ABSTRACT

Recent deep learning based approaches have achieved great success on handwriting recognition. Chinese characters are among the most widely adopted writing systems in the world. Previous research has mainly focused on recognizing handwritten Chinese characters. However, recognition is only one aspect for understanding a language, another challenging and interesting task is to teach a machine to automatically write (pictographic) Chinese characters. In this paper, we propose a framework by using the recurrent neural network (RNN) as both a discriminative model for recognizing Chinese characters and a generative model for drawing (generating) Chinese characters. To recognize Chinese characters, previous methods usually adopt the convolutional neural network (CNN) models which require transforming the online handwriting trajectory into image-like representations. Instead, our RNN based approach is an end-to-end system which directly deals with the sequential structure and does not require any domain-specific knowledge. With the RNN system (combining an LSTM and GRU), state-of-the-art performance can be achieved on the ICDAR-2013 competition database. Furthermore, under the RNN framework, a conditional generative model with character embedding is proposed for automatically drawing recognizable Chinese characters. The generated characters (in vector format) are human-readable and also can be recognized by the discriminative RNN model with high accuracy. Experimental results verify the effectiveness of using RNNs as both generative and discriminative models for the tasks of drawing and recognizing Chinese characters.

연구 동기 및 목표

이미지 유사 표현 방식과 도메인 특화 전처리를 피하는 종단 간 온라인 손글씨 중국어 문자 인식 시스템을 개발한다.
딥 러닝 생성 모델을 활용한 중국어 문자의 자동 손글씨 생성(그림 그리기) 작업을 다루며, 아직 탐색이 부족한 과제를 해결한다.
인식과 합성에 대해 손글씨 중국어 문자를 위한 단일 RNN 프레임워크 내에서 분류적 모델링과 생성적 모델링을 통합한다.
트레이젝터리(경로)를 2차원 이미지 표현으로 변환하지 않고도 순차적 데이터를 직접 활용하여 인식 성능을 향상시킨다.

제안 방법

종단 간 온라인 손글씨 중국어 문자 인식을 위해 이중 방향 LSTM 및 GRU 네트워크를 사용하여 펜 끝의 순차적 트레이젝터리(x, y, 펜 올리기/내리기)를 모델링한다.
다양하고 정확한 문자 획을 생성하기 위해 생성적 RNN를 지시하는 데 문자 임베딩을 조건 입력으로 사용한다.
펜 상태 전이(펜 올리기/내리기)를 이산 출력으로 모델링하여 생성 과정에서 획의 시작과 종료를 제어한다.
가우시안 믹스처 모델(GMM)을 사용하여 펜 방향을 모델링하고 수 sequential-to-sequence 프레임워크를 기반으로 조건부 생성 RNN을 훈련시켜 손글씨 스타일의 다양성을 보장한다.
공유된 RNN 아키텍처 내에서 분류적 모델과 생성적 모델을 통합하여 공동 학습과 잠재적 데이터 증강을 가능하게 한다.
생성 모델을 사용하여 벡터 형식의 문자 그림을 생성하며, 이는 인간이 읽을 수 있고 분류적 RNN에 의해 높은 정확도로 인식된다.

실험 결과

연구 질문

RQ1이미지 기반 표현 없이 종단 간 온라인 손글씨 중국어 문자 인식에서 RNN이 최신 기술 수준의 성능을 달성할 수 있는가?
RQ2문자 임베딩를 조건으로 사용한 조건부 RNN이 현실적이고 인식 가능한 손글씨 중국어 문자를 얼마나 효과적으로 생성하는가?
RQ3동일한 RNN 아키텍처가 동시에 분류적 모델(인식용)과 생성적 모델(손글씨 생성용)으로 기능할 수 있는가?
RQ4혼동이 쉬운 문자 클래스가 생성 품질에 미치는 영향은 무엇이며, 이를 개선하기 위해 주의 메커니즘 또는 손실 함수를 어떻게 개선할 수 있는가?
RQ5생성 모델을 분류 모델의 훈련 데이터 증강에 사용할 수 있는가, 또는 반대로 분류 모델이 생성 모델을 정규화할 수 있는가?

주요 결과

제안된 RNN 기반 인식 시스템은 이미지 유사 표현이 필요한 CNN 기반 방법보다도 ICDAR-2013 경진대회 데이터셋에서 최신 기술 수준의 성능을 달성했다.
생성적 RNN 모델은 인간이 읽을 수 있고 분류적 RNN 모델에 의해 높은 정확도로 인식 가능한 벡터 형식의 문자를 성공적으로 생성했다.
혼동이 덜 되는 클래스의 문자는 100%의 인식 정확도로 생성되었지만, 미세한 형태 차이로 인해 혼동이 쉬운 클래스의 문자는 낮은 정확도를 보였다.
모델은 도메인 특화 전처리 없이도 순차적 손글씨 트레이젝터리 내의 공간적 및 시간적 의존성을 효과적으로 포착할 수 있음을 입증했다.
연구는 생성 모델이 분류 모델의 데이터 증강 전략으로 사용될 수 있음을 확인했으며, 이는 다중 작업 프레임워크에서 공동 학습 가능성을 시사한다.
저자들은 혼동이 쉬운 문자 쌍을 위한 손실 함수 개선과 주의 메커니즘 또는 기억 메커니즘 통합이 추가로 생성 품질 향상에 기여할 수 있음을 밝혔다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.