QUICK REVIEW

[论文解读] Efficient Character-level Document Classification by Combining Convolution and Recurrent Layers

Yijun Xiao, Kyunghyun Cho|arXiv (Cornell University)|Feb 1, 2016

Topic Modeling参考文献 15被引用 171

一句话总结

本文提出一种混合 ConvRec 模型，在字符嵌入上堆叠若干卷积层，并在其上加入一个双向递归层，以高效捕捉长距离依赖，达到与纯卷积模型相当的准确率但参数大幅减少。

ABSTRACT

Document classification tasks were primarily tackled at word level. Recent research that works with character-level inputs shows several benefits over word-level approaches such as natural incorporation of morphemes and better handling of rare words. We propose a neural network architecture that utilizes both convolution and recurrent layers to efficiently encode character inputs. We validate the proposed model on eight large scale document classification tasks and compare with character-level convolution-only models. It achieves comparable performances with much less parameters.

研究动机与目标

推动字符级文档分类以处理词素、罕见词和未知词标记。
提出一种混合架构，在减少参数数量的同时捕捉长距离依赖。
证明 ConvRec 模型在大规模数据集上可匹配或超过仅卷积的性能。
分析模型深度、训练规模和类别数量如何影响性能。

提出的方法

将文档表示为字符序列，通过一-hot 输入嵌入为密集向量。
应用多层卷积提取局部、平移不变特征，并通过池化降低序列长度。
在卷积特征之上使用一个单层双向递归（LSTM）以捕捉长距离依赖。
串联前向和后向递归层的最后状态并输入到 softmax 分类器。
使用 AdaDelta 的正则化交叉熵训练，在最后一个卷积层和递归层后添加 dropout。

实验结果

研究问题

RQ1一个卷积-递归混合架构能否在显著减少参数的情况下达到与更深的卷积网络相当的准确性？
RQ2在具有不同类别数量和训练规模的多种大规模文本分类任务中，ConvRec 模型的表现如何？
RQ3卷积层数量和卷积核尺寸对性能的影响是什么？
RQ4当类别数量增加或数据规模减少时，ConvRec 方法是否仍然具有优势？

主要发现

数据集	# Ex.	# Cl.	我们的网络	我们的参数	我们的误差	基线网络	基线参数	基线误差
AG	120k	4	C2R1D1024	20M	8.39/8.64	C6F2D1024	27M	-\/9.85
Sogou	450k	5	C3R1D128	.4M	4.82/4.83	C6F2D1024	27M	-\/4.88
DBPedia	560k	14	C2R1D128	.3M	1.46/1.43	C6F2D1024	27M	-\/1.66
Yelp P.	560k	2	C2R1D128	.3M	5.50/5.51	C6F2D1024	27M	-\/5.25
Yelp F.	650k	5	C2R1D128	.3M	38.00/38.18	C6F2D1024	27M	-\/38.40
Yahoo A.	1.4M	10	C2R1D1024	20M	28.62/28.26	C6F2D1024 ⋆	27M	-\/29.55
Amazon P.	3.6M	2	C3R1D128	.4M	5.64/5.87	C6F2D256 ⋆	2.7M	-\/5.50
Amazon F.	3.0M	5	C3R1D128	.4M	40.30/40.77	C6F2D256 ⋆	2.7M	-\/40.53

在八个大规模数据集上，ConvRec 在数据增强的最佳字符级卷积模型方面达到可比或更好的错误率，同时使用的参数要少得多。
随着类别数量增加，ConvRec 经常优于仅卷积模型（如 DBPedia 有 14 个类别）。
该模型在中等深度卷积（两到三层）时往往表现更好，并且受益于递归层来捕捉长距离依赖。
更大的卷积宽度在某些数据集上提升了性能，但相对于参数增加的收益递减。
两层至三层的卷积堆叠加一个双向 LSTM 在性能和效率之间提供了有效的平衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。