Skip to main content
QUICK REVIEW

[论文解读] MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification

Jiaao Chen, Zichao Yang|arXiv (Cornell University)|Apr 25, 2020
Topic Modeling参考文献 40被引用 24
一句话总结

MixText 提出了一种半监督文本分类方法,通过使用 TMix(一种基于语言学知识的隐藏空间插值技术),在隐藏空间中混合有标签、无标签和合成数据,生成增强的训练样本。该方法通过在样本之间强制实现线性行为并利用一致性正则化,在低标签数据设置下显著提升了性能,尤其在低标签场景下表现优异,超越了多个基准测试中的最先进预训练和微调模型。

ABSTRACT

This paper presents MixText, a semi-supervised learning method for text classification, which uses our newly designed data augmentation method called TMix. TMix creates a large amount of augmented training samples by interpolating text in hidden space. Moreover, we leverage recent advances in data augmentation to guess low-entropy labels for unlabeled data, hence making them as easy to use as labeled data.By mixing labeled, unlabeled and augmented data, MixText significantly outperformed current pre-trained and fined-tuned models and other state-of-the-art semi-supervised learning methods on several text classification benchmarks. The improvement is especially prominent when supervision is extremely limited. We have publicly released our code at https://github.com/GT-SALT/MixText.

研究动机与目标

  • 解决在文本分类任务中,当有标签数据稀缺时深度学习模型的过拟合问题。
  • 克服先前半监督模型将有标签和无标签数据分开处理、缺乏交叉监督的局限性。
  • 通过在隐藏空间中进行插值,有效利用丰富的无标签数据,生成合成训练样本。
  • 通过在表示空间中强制数据点之间的线性行为,提升模型泛化能力。
  • 开发一个统一框架,整合数据增强、自训练和一致性正则化,以在低资源设置下提升性能。

提出的方法

  • 提出 TMix,一种数据增强方法,通过在神经网络的选定层中使用混合系数 λ 插值两个文本样本的隐藏表示。
  • 使用预训练的 BERT 模型为无标签数据生成低熵伪标签,以实现具有置信度的自训练。
  • 通过后翻译增强无标签数据并强制不同视图间的一致性预测,应用一致性正则化。
  • 将有标签数据、无标签数据和 TMix 增强样本整合到单一训练目标中,以在隐藏空间中鼓励线性插值行为。
  • 在多个层(例如 {7,9,12})执行混合操作,以捕捉句法和语义信息,并通过消融研究确定最优层集合。
  • 通过多个视图(原始和增强)预测结果的加权平均来稳定训练并提升鲁棒性。

实验结果

研究问题

  • RQ1在半监督文本分类中,插值文本样本的隐藏表示是否能提升泛化能力?
  • RQ2网络架构中混合层的选择如何影响模型性能?
  • RQ3在低标签设置下,将 TMix 与自训练和一致性正则化结合,是否能显著优于现有半监督方法?
  • RQ4当仅有少量有标签样本时,TMix 是否能有效减少过拟合?
  • RQ5各组件(如无标签数据、TMix、伪标签)对 MixText 最终性能的相对贡献如何?

主要发现

  • MixText 在四个基准文本分类数据集上实现了最先进性能,包括 AG News 和 Yahoo! Answers,尤其在低标签设置下表现突出(例如每类仅 10 个有标签样本)。
  • 在 AG News 数据集上,每类仅使用 10 个有标签样本时,MixText 达到 67.6% 的测试准确率,比次佳方法高出 4.4 个百分点。
  • 消融研究显示,移除 TMix 组件导致性能下降最大(从 67.6% 降至 63.5%),证实其在模型性能提升中的关键作用。
  • 损失曲线显示,与 BERT 和 UDA 相比,MixText 和 TMix 在训练过程中表现出更稳定的动态,开发损失更低且更平滑,尤其在每类仅使用 200 个有标签样本时更为明显。
  • 在基于 BERT 的模型中,最优混合层集合 {7,9,12} 在 AG News 上实现了最高准确率(74.1%),表明捕获语义和句法结构的高层特征最有利于插值。
  • 当移除无标签数据时性能显著下降至 58.6%,证实无标签数据对方法成功至关重要,但其效果在 TMix 和伪标签的协同作用下被显著放大。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。