[论文解读] Drawing and Recognizing Chinese Characters with Recurrent Neural Network
本文提出了一种统一的循环神经网络(RNN)框架,采用LSTM和GRU架构,以端到端的方式同时识别和生成连笔手写中文字符。该方法在ICDAR-2013数据集上实现了最先进的识别准确率,并通过结合字符嵌入和笔迹状态建模的条件生成模型,生成了可读性强且可识别的字符。
Recent deep learning based approaches have achieved great success on handwriting recognition. Chinese characters are among the most widely adopted writing systems in the world. Previous research has mainly focused on recognizing handwritten Chinese characters. However, recognition is only one aspect for understanding a language, another challenging and interesting task is to teach a machine to automatically write (pictographic) Chinese characters. In this paper, we propose a framework by using the recurrent neural network (RNN) as both a discriminative model for recognizing Chinese characters and a generative model for drawing (generating) Chinese characters. To recognize Chinese characters, previous methods usually adopt the convolutional neural network (CNN) models which require transforming the online handwriting trajectory into image-like representations. Instead, our RNN based approach is an end-to-end system which directly deals with the sequential structure and does not require any domain-specific knowledge. With the RNN system (combining an LSTM and GRU), state-of-the-art performance can be achieved on the ICDAR-2013 competition database. Furthermore, under the RNN framework, a conditional generative model with character embedding is proposed for automatically drawing recognizable Chinese characters. The generated characters (in vector format) are human-readable and also can be recognized by the discriminative RNN model with high accuracy. Experimental results verify the effectiveness of using RNNs as both generative and discriminative models for the tasks of drawing and recognizing Chinese characters.
研究动机与目标
- 开发一种用于在线手写中文字符识别的端到端系统,避免使用类似图像的表示形式和特定领域的预处理。
- 解决利用深度生成模型自动生成(绘制)中文字符这一尚未充分探索的任务。
- 在单一RNN框架下统一判别式与生成式建模,实现连笔中文字符的识别与合成。
- 通过直接利用序列数据,避免将轨迹转换为二维图像表示,从而提升识别性能。
提出的方法
- 采用双向LSTM和GRU网络,对笔尖轨迹(x, y, 笔抬起/落下)进行建模,实现在线手写中文字符的端到端识别。
- 使用字符嵌入作为条件输入,引导生成式RNN生成多样且准确的字符笔画。
- 将笔状态转换(笔抬起/落下)建模为离散输出,以控制生成过程中的笔画起始与终止。
- 采用序列到序列框架训练条件生成式RNN,并使用高斯混合模型(GMMs)对笔的方向进行建模,以确保书写风格的多样性。
- 在共享RNN架构下整合判别式与生成式模型,实现联合学习并具备潜在的数据增强能力。
- 将生成模型应用于生成向量格式的字符绘制,确保其既具有可读性,又能被判别式RNN以高准确率识别。
实验结果
研究问题
- RQ1RNN是否能够在不使用基于图像表示的情况下,实现端到端在线手写中文字符识别的最先进性能?
- RQ2带有字符嵌入的条件RNN在生成逼真、可识别的连笔中文字符方面效果如何?
- RQ3同一RNN架构能否同时作为判别式模型用于识别和生成式模型用于书写?
- RQ4易混淆的字符类别对生成质量有何影响?如何通过改进注意力机制或损失函数来缓解该问题?
- RQ5生成模型能否用于增强判别模型的训练数据?或判别模型能否对生成模型起到正则化作用?
主要发现
- 所提出的基于RNN的识别系统在ICDAR-2013竞赛数据集上实现了最先进性能,优于需要图像表示的CNN方法。
- 生成式RNN模型成功生成了向量格式的字符,这些字符既具有可读性,又能被判别式RNN以高准确率识别。
- 非易混淆类别的字符生成准确率达到100%,而易混淆类别的字符因细微形状差异导致准确率下降。
- 该模型表明,端到端RNN能够有效捕捉手写轨迹中的空间与时间依赖性,且无需特定领域的预处理。
- 研究证实,生成模型可作为判别模型的数据增强策略,提示在多任务框架中联合训练具有潜在优势。
- 作者指出,通过改进易混淆字符对的损失函数,并引入注意力或记忆机制,可进一步提升生成质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。