QUICK REVIEW

[论文解读] Character-Aware Neural Language Models

Yoon Kim, Yacine Jernite|arXiv (Cornell University)|Aug 26, 2015

Natural Language Processing Techniques参考文献 55被引用 1,023

一句话总结

该论文提出了一种字符感知的神经语言模型，通过在字符上使用卷积神经网络（CNN）和高速公路网络来生成词表示，并将其输入到LSTM语言模型中。尽管参数量比当前最先进(word-level)模型减少了60%，该模型在英语Penn Treebank数据集上仍取得了相当的性能表现，并在阿拉伯语、捷克语和俄语等形态丰富的语言上优于词级别和词素级别的基线模型。

ABSTRACT

We describe a simple neural language model that relies only on character-level inputs. Predictions are still made at the word-level. Our model employs a convolutional neural network (CNN) and a highway network over characters, whose output is given to a long short-term memory (LSTM) recurrent neural network language model (RNN-LM). On the English Penn Treebank the model is on par with the existing state-of-the-art despite having 60% fewer parameters. On languages with rich morphology (Arabic, Czech, French, German, Spanish, Russian), the model outperforms word-level/morpheme-level LSTM baselines, again with fewer parameters. The results suggest that on many languages, character inputs are sufficient for language modeling. Analysis of word representations obtained from the character composition part of the model reveals that the model is able to encode, from characters only, both semantic and orthographic information.

研究动机与目标

开发一种仅依赖字符级输入的神经语言模型，从而消除对词嵌入或形态学预处理的依赖。
通过利用字符级组合的子词信息，解决神经语言建模中的罕见词问题。
评估仅靠字符级表示是否能捕捉足够的语义和拼写信息以实现有效的语言建模。
在低资源或形态复杂的语言设置下，减少模型大小的同时保持或提升性能。
探究词嵌入是否对高性能语言模型是必要的，从而挑战对词级别向量输入的常规依赖。

提出的方法

使用最大时间池化（max-over-time pooling）的字符级CNN处理每个词的字符序列，以捕捉局部n-gram模式。
CNN的输出通过高速公路网络传递，以实现更深层次的表示学习，同时避免梯度消失问题。
生成的字符级表示被输入到LSTM循环神经网络中进行语言建模，预测在词级别进行。
模型通过交叉熵损失端到端训练，以预测序列中的下一个词，输入层不使用任何词嵌入。
该架构通过直接从字符中学习子词结构，避免了形态学标注或手动特征工程。
在推理阶段，可通过预计算高频词的字符级表示来加速评分，以空间换时间。

实验结果

研究问题

RQ1仅使用字符级输入的神经语言模型能否实现与现有模型相当的性能，而无需词嵌入？
RQ2仅从字符中学习表示是否能捕捉足够的语义和拼写信息以实现有效的语言建模？
RQ3在词汇多样性高的形态丰富语言中，字符级模型是否能超越词级和词素级基线模型？
RQ4在神经语言模型中使用词嵌入是否必要，还是仅靠字符级组合就已足够？
RQ5与标准词级语言模型相比，该模型的参数效率如何，尤其是在低资源或OOV（未登录词）场景下？

主要发现

在英语Penn Treebank数据集上，该模型使用大架构时达到119.2的测试困惑度，尽管参数量比当前最先进模型减少了60%，但性能相当。
在阿拉伯语、捷克语、法语、德语、西班牙语和俄语等形态丰富的语言上，该模型优于Kneser-Ney基线以及词级/词素级LSTM基线。
由于能够通过字符级组合进行泛化，该模型在罕见词上的表现有所提升，从而减少了OOV问题。
对学习表示的分析表明，该字符级模型在无显式监督的情况下编码了语义和拼写特征。
该模型训练速度较慢（1500 tokens/sec），低于类似词级模型（3000 tokens/sec），但可通过预计算字符表示加速推理。
将词嵌入与字符级输出拼接的实验未带来性能提升，表明当字符级特征已足够时，词嵌入可能是冗余的。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。