QUICK REVIEW

[论文解读] MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification

Jiaao Chen, Zichao Yang|arXiv (Cornell University)|Apr 25, 2020

Topic Modeling参考文献 40被引用 24

一句话总结

MixText 提出了一种半监督文本分类方法，通过使用 TMix（一种基于语言学知识的隐藏空间插值技术），在隐藏空间中混合有标签、无标签和合成数据，生成增强的训练样本。该方法通过在样本之间强制实现线性行为并利用一致性正则化，在低标签数据设置下显著提升了性能，尤其在低标签场景下表现优异，超越了多个基准测试中的最先进预训练和微调模型。

ABSTRACT

This paper presents MixText, a semi-supervised learning method for text classification, which uses our newly designed data augmentation method called TMix. TMix creates a large amount of augmented training samples by interpolating text in hidden space. Moreover, we leverage recent advances in data augmentation to guess low-entropy labels for unlabeled data, hence making them as easy to use as labeled data.By mixing labeled, unlabeled and augmented data, MixText significantly outperformed current pre-trained and fined-tuned models and other state-of-the-art semi-supervised learning methods on several text classification benchmarks. The improvement is especially prominent when supervision is extremely limited. We have publicly released our code at https://github.com/GT-SALT/MixText.

研究动机与目标

解决在文本分类任务中，当有标签数据稀缺时深度学习模型的过拟合问题。
克服先前半监督模型将有标签和无标签数据分开处理、缺乏交叉监督的局限性。
通过在隐藏空间中进行插值，有效利用丰富的无标签数据，生成合成训练样本。
通过在表示空间中强制数据点之间的线性行为，提升模型泛化能力。
开发一个统一框架，整合数据增强、自训练和一致性正则化，以在低资源设置下提升性能。

提出的方法

提出 TMix，一种数据增强方法，通过在神经网络的选定层中使用混合系数 λ 插值两个文本样本的隐藏表示。
使用预训练的 BERT 模型为无标签数据生成低熵伪标签，以实现具有置信度的自训练。
通过后翻译增强无标签数据并强制不同视图间的一致性预测，应用一致性正则化。
将有标签数据、无标签数据和 TMix 增强样本整合到单一训练目标中，以在隐藏空间中鼓励线性插值行为。
在多个层（例如 {7,9,12}）执行混合操作，以捕捉句法和语义信息，并通过消融研究确定最优层集合。
通过多个视图（原始和增强）预测结果的加权平均来稳定训练并提升鲁棒性。

实验结果

研究问题

RQ1在半监督文本分类中，插值文本样本的隐藏表示是否能提升泛化能力？
RQ2网络架构中混合层的选择如何影响模型性能？
RQ3在低标签设置下，将 TMix 与自训练和一致性正则化结合，是否能显著优于现有半监督方法？
RQ4当仅有少量有标签样本时，TMix 是否能有效减少过拟合？
RQ5各组件（如无标签数据、TMix、伪标签）对 MixText 最终性能的相对贡献如何？

主要发现

MixText 在四个基准文本分类数据集上实现了最先进性能，包括 AG News 和 Yahoo! Answers，尤其在低标签设置下表现突出（例如每类仅 10 个有标签样本）。
在 AG News 数据集上，每类仅使用 10 个有标签样本时，MixText 达到 67.6% 的测试准确率，比次佳方法高出 4.4 个百分点。
消融研究显示，移除 TMix 组件导致性能下降最大（从 67.6% 降至 63.5%），证实其在模型性能提升中的关键作用。
损失曲线显示，与 BERT 和 UDA 相比，MixText 和 TMix 在训练过程中表现出更稳定的动态，开发损失更低且更平滑，尤其在每类仅使用 200 个有标签样本时更为明显。
在基于 BERT 的模型中，最优混合层集合 {7,9,12} 在 AG News 上实现了最高准确率（74.1%），表明捕获语义和句法结构的高层特征最有利于插值。
当移除无标签数据时性能显著下降至 58.6%，证实无标签数据对方法成功至关重要，但其效果在 TMix 和伪标签的协同作用下被显著放大。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。