[论文解读] Learning to Create and Reuse Words in Open-Vocabulary Neural Language Modeling
本文提出一种分层字符级LSTM语言模型,配备可学习的缓存机制,能够动态创建并重用词语,尤其擅长捕捉罕见词(如专有名词)的突发性使用。该模型在标准基准和新的多语言维基百科语料库上实现了最先进水平的困惑度,通过选择性地从字符级解码或缓存的过去标记中生成词语,有效建模了开放词汇表动态下的长距离依赖关系。
Fixed-vocabulary language models fail to account for one of the most characteristic statistical facts of natural language: the frequent creation and reuse of new word types. Although character-level language models offer a partial solution in that they can create word types not attested in the training corpus, they do not capture the "bursty" distribution of such words. In this paper, we augment a hierarchical LSTM language model that generates sequences of word tokens character by character with a caching mechanism that learns to reuse previously generated words. To validate our model we construct a new open-vocabulary language modeling corpus (the Multilingual Wikipedia Corpus, MWC) from comparable Wikipedia articles in 7 typologically diverse languages and demonstrate the effectiveness of our model across this range of languages.
研究动机与目标
- 为解决固定词汇表语言模型在处理频繁生成新词和罕见词的开放词汇表设置下的局限性。
- 通过将缓存机制整合到字符级语言模型中,建模罕见词(尤其是专有名词)的突发性重复使用。
- 开发一种统一架构,结合字符级生成与词级重用,通过LSTM保留长距离依赖关系。
- 在新构建的多语言语料库上评估模型,以证明其在类型学差异显著语言中的鲁棒性。
- 分析缓存机制对词语重用的贡献,及其对特定词类(如姓名、数字、内容词)的偏好。
提出的方法
- 该模型使用分层LSTM,逐字符生成词语,并通过其字符序列上的LSTM将每个词语编码为向量。
- 一个可学习的、类似LRU的缓存存储先前生成的词语表征,使模型能够从过去标记中复制词语,而非重新生成。
- 在每个生成步骤,模型以概率方式决定是通过语言模型(字符级LSTM)生成词语,还是从缓存中检索,该决策在训练过程中被边缘化。
- 缓存通过词语生成LSTM的隐藏状态进行索引,实现对先前见过词语的上下文感知检索。
- 模型通过交叉熵损失进行端到端训练,缓存机制被整合进自回归生成过程。
- 构建了一个新的多语言维基百科语料库(MWC),基于7种类型学差异显著的语言的可比维基百科文章,用于评估跨语言性能。
实验结果
研究问题
- RQ1带有缓存机制的字符级语言模型在建模罕见词和新生成词的突发性重用方面效果如何?
- RQ2在不同语言中,缓存机制对专有名词、内容词或数字的处理偏好程度如何?
- RQ3所提出的模型是否在开放词汇表设置下优于标准的字符级和词级语言模型?
- RQ4缓存机制如何促进长距离依赖关系建模并降低困惑度?
- RQ5该模型能否在具有不同形态和拼写特征的语言中实现良好泛化?
主要发现
- 所提出的带缓存的HCLM在所有数据集上的困惑度均低于基线HCLM和标准LSTM模型,尤其在WikiText-2和多语言维基百科语料库等开放词汇表基准上提升最大。
- 缓存主要用于生成具有高突发性的专有名词,而内容词和数字则更可能由字符级语言模型生成。
- 在MWC上,该模型在7种类型学差异显著的语言中均表现出一致的性能提升,证实了其对语言差异的鲁棒性。
- 后验分析确认,缓存机制有效学习了词语重用的建模,专有名词被从缓存中检索的概率很高。
- 模型倾向于避免从缓存中复制数字,表明其已学习到数字很少被重用,这与实证词频模式一致。
- 由于去除了词投影层,该模型的参数量低于标准词级模型,同时通过LSTM和缓存机制保持了强劲性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。