[论文解读] Supervised and Semi-Supervised Text Categorization using LSTM for Region Embeddings
本文提出一个用于文本分类的一般区域嵌入框架,使用 one-hot LSTM 来嵌入文本区域,并且证明将基于 LSTM 的区域嵌入与基于 CNN 的区域嵌入——在无标签数据上训练的——结合起来,在多个基准数据集上取得了最先进的结果。
One-hot CNN (convolutional neural network) has been shown to be effective for text categorization (Johnson & Zhang, 2015). We view it as a special case of a general framework which jointly trains a linear model with a non-linear feature generator consisting of `text region embedding + pooling'. Under this framework, we explore a more sophisticated region embedding method using Long Short-Term Memory (LSTM). LSTM can embed text regions of variable (and possibly large) sizes, whereas the region size needs to be fixed in a CNN. We seek effective and efficient use of LSTM for this purpose in the supervised and semi-supervised settings. The best results were obtained by combining region embeddings in the form of LSTM and convolution layers trained on unlabeled data. The results indicate that on this task, embeddings of text regions, which can convey complex concepts, are more useful than embeddings of single words in isolation. We report performances exceeding the previous best results on four benchmark datasets.
研究动机与目标
- 引入一个通用的区域嵌入+ pooling 的文本分类框架,该框架包含 one-hot CNN。
- 研究将 Long Short-Term Memory (LSTM) 作为区域嵌嵌入生成器,在不使用词嵌入的情况下。
- 评估有监督和半监督设置,包括使用未标注数据来学习区域嵌入。
- 证明将基于 LSTM 的嵌入与在未标注数据上训练的 CNN 嵌入结合是否能够提升性能。
提出的方法
- 用 one-hot LSTM 替换词嵌入层,将 one-hot 向量直接输入 LSTM。
- 使用 pooling 从区域嵌入(短片段)形成文档表示,而不是整篇文档。
- 通过去除输入门/输出门并应用 chopping 以提升速度来简化 LSTM,必要时可结合带 pooling 的双向 LSTM。
- 引入从未标注数据学习的 LSTM tv-embeddings,为监督 LSTM 模型提供额外输入。
- 将 LSTM tv-embeddings 与 CNN tv-embeddings 结合,创造互补的区域表示。
- 在带标签数据上使用 SGD(或 RMSProp)端到端训练;在四个基准上评估并与 SVM、oh-CNN、wv-LSTM 进行比较。
实验结果
研究问题
- RQ1由 one-hot LSTM 学习的区域嵌入是否能够在文本分类中胜过 CNN 中的固定大小区域嵌入?
- RQ2通过 tv-embeddings 使用未标注数据是否能提升有监督文本分类?
- RQ3LSTM 和 CNN 区域嵌入的组合是否能带来互补效益并实现比单独使用任一方法更好的性能?
主要发现
- 带 pooling 的 one-hot 双向 LSTM (oh-2LSTMp) 在 IMDB、Elec、和 20NG 上的表现优于 word-vector LSTM (wv-LSTM),并在大多数情况下与 oh-CNN 相当甚至更好。
- 在有监督设置中,oh-2LSTMp 的错误率低于若干基线,表 3 显示:IMDB 8.14,Elec 7.33,RCV1 11.17,20NG 13.32。
- 半监督结果表明,oh-2LSTMp 搭配在未标注数据上训练的 LSTM tv-embeddings,相较于有监督版本在所有数据集上提升了性能(例如 IMDB 6.66 vs 8.14)。
- oh-CNN + CNN tv-embeddings 以及 oh-2LSTMp + LSTM tv-embeddings 组合时可以进一步提升结果(表 6)。
- 在 IMDB/Elec/RCV1/20NG 上报道的最佳有监督结果超过先前最佳,例如 IMDB 5.94、Elec 5.55、RCV1 7.15 在表 7。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。