QUICK REVIEW
[论文解读] Character-level Convolutional Networks for Text Classification
Xiang Zhang, Junbo Zhao|arXiv (Cornell University)|Sep 4, 2015
Topic Modeling参考文献 30被引用 3,267
一句话总结
这篇论文实证评估字符级卷积神经网络用于文本分类,在大型数据集上表现竞争力或达到最新水平,而不依赖词级表示。
ABSTRACT
This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.
研究动机与目标
- 用字符级信号取代词级表示推动文本分类。
- 证明深度字符级ConvNets在大规模数据集上能够实现具有竞争力的或最先进的结果。
- 在多种任务中将字符级ConvNets与传统模型及基于词的深度学习方法进行比较。
- 研究数据集规模、字母表选择与数据增强对模型性能的影响。
提出的方法
- 使用两个9层的字符级ConvNets(大和小),输入为70字符字母表。
- 应用具有多种核大小的1-D时序卷积和池化,随后是全连接层和 dropout。
- 使用带动量的SGD、特定学习率调度,以及Torch7实现进行训练。
- 将输入量化为固定长度的一热字符向量,优先考虑序列中较近的字符。
- 通过同义词表的同义词替换进行数据增强,以提高泛化能力。
- 与词袋/TFIDF、Bag-of-N-grams、Bag-of-means、LSTM,以及有无预训练嵌入的基于词的ConvNets进行对比。
实验结果
研究问题
- RQ1字符级ConvNets在没有词级token的情况下能否达到有竞争力的文本分类性能?
- RQ2字符级模型在大规模数据集上与传统和基于词的深度学习方法相比如何?
- RQ3数据集大小、字母表选择和数据增强对模型性能有何影响?
- RQ4字符级ConvNets在用户生成、整理度较差的文本上是否更鲁棒?
- RQ5在大规模数据上区分大小写是否有帮助,还是无区分大小写更有利?
主要发现
| 模型 | AG | Sogou | DBP. | Yelp P. | Yelp F. | Yahoo A. | Amz F. | Amz P. |
|---|---|---|---|---|---|---|---|---|
| BoW | 11.19 | 7.15 | 3.39 | 7.76 | 42.01 | 31.11 | 45.36 | 9.60 |
| BoW TFIDF | 10.36 | 6.55 | 2.63 | 6.34 | 40.14 | 28.96 | 44.74 | 9.00 |
| ngrams | 7.96 | 2.92 | 1.37 | 4.36 | 43.74 | 31.53 | 45.73 | 7.98 |
| ngrams TFIDF | 7.64 | 2.81 | 1.31 | 4.56 | 45.20 | 31.49 | 47.56 | 8.46 |
| Bag-of-means | 16.91 | 10.79 | 9.55 | 12.67 | 47.46 | 39.45 | 55.87 | 18.39 |
| LSTM | 13.94 | 4.82 | 1.45 | 5.26 | 41.83 | 29.16 | 40.57 | 6.10 |
| Lg. w2v Conv. | 9.92 | 4.39 | 1.42 | 4.60 | 40.16 | 31.97 | 44.40 | 5.88 |
| Sm. w2v Conv. | 11.35 | 4.54 | 1.71 | 5.56 | 42.13 | 31.50 | 42.59 | 6.00 |
| Lg. w2v Conv. Th. | 9.91 | - | 1.37 | 4.63 | 39.58 | 31.23 | 43.75 | 5.80 |
| Sm. w2v Conv. Th. | 10.88 | - | 1.53 | 5.36 | 41.09 | 29.86 | 42.50 | 5.63 |
| Lg. Lk. Conv. | 8.55 | 4.95 | 1.72 | 4.89 | 40.52 | 29.06 | 45.95 | 5.84 |
| Sm. Lk. Conv. | 10.87 | 4.93 | 1.85 | 5.54 | 41.41 | 30.02 | 43.66 | 5.85 |
| Lg. Lk. Conv. Th. | 8.93 | - | 1.58 | 5.03 | 40.52 | 28.84 | 42.39 | 5.52 |
| Sm. Lk. Conv. Th. | 9.12 | - | 1.77 | 5.37 | 41.17 | 28.92 | 43.19 | 5.51 |
| Lg. Full Conv. | 9.85 | 8.80 | 1.66 | 5.25 | 38.40 | 29.90 | 40.89 | 5.78 |
| Sm. Full Conv. | 11.59 | 8.95 | 1.89 | 5.67 | 38.82 | 30.01 | 40.88 | 5.78 |
| Lg. Full Conv Th. | 9.51 | - | 1.55 | 4.88 | 38.04 | 29.58 | 40.54 | 5.51 |
| Sm. Full Conv Th. | 10.89 | - | 1.69 | 5.42 | 37.95 | 29.90 | 40.53 | 5.66 |
| Lg. Conv. | 12.82 | 4.88 | 1.73 | 5.89 | 39.62 | 29.55 | 41.31 | 5.51 |
| Sm. Conv. | 15.65 | 8.65 | 1.98 | 6.53 | 40.84 | 29.84 | 40.53 | 5.50 |
| Lg. Conv Th. | 13.39 | - | 1.60 | 5.82 | 39.30 | 28.80 | 40.45 | 4.93 |
| Sm. Conv Th. | 14.80 | - | 1.85 | 6.49 | 40.16 | 29.84 | 40.43 | 5.67 |
- 字符级ConvNets在文本分类中可以在不依赖词的情况下有效。
- 更大、整理度较低、百万级数据集更有利于字符级ConvNets超过传统方法。
- 基于同义词的数据增强提高字符级模型的性能。
- 字母表选择(大小写敏感)在使用大数据集时通常会降低性能;不区分大小写可以正则化。
- 基于词的深度模型在较小数据集上可能仍优于,但在非常大数据集上字符级ConvNets超过它们。
- 最佳结果出现在大型数据集上,字符级ConvNets优于若干基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。