Skip to main content
QUICK REVIEW

[论文解读] Beyond a Single Perspective: Text Anomaly Detection with Multi-View Language Representations

Yixin Liu, Kehan Yan|arXiv (Cornell University)|Jan 25, 2026
Misinformation and Its Impacts被引用 0
一句话总结

MCA 2 提出一个多视图文本异常检测框架,通过重建主干将来自多个预训练语言模型的嵌入结合起来,进行跨视图对比协作,并对每个样本的视图权重进行自适应调整,以在多样化数据集上提升检测效果。

ABSTRACT

Text anomaly detection (TAD) plays a critical role in various language-driven real-world applications, including harmful content moderation, phishing detection, and spam review filtering. While two-step "embedding-detector" TAD methods have shown state-of-the-art performance, their effectiveness is often limited by the use of a single embedding model and the lack of adaptability across diverse datasets and anomaly types. To address these limitations, we propose to exploit the embeddings from multiple pretrained language models and integrate them into $MCA^2$, a multi-view TAD framework. $MCA^2$ adopts a multi-view reconstruction model to effectively extract normal textual patterns from multiple embedding perspectives. To exploit inter-view complementarity, a contrastive collaboration module is designed to leverage and strengthen the interactions across different views. Moreover, an adaptive allocation module is developed to automatically assign the contribution weight of each view, thereby improving the adaptability to diverse datasets. Extensive experiments on 10 benchmark datasets verify the effectiveness of $MCA^2$ against strong baselines. The source code of $MCA^2$ is available at https://github.com/yankehan/MCA2.

研究动机与目标

  • 在依赖单一嵌入模型的嵌入式 TAD 方法中揭示鲁棒性和适应性方面的不足。
  • 提出一个统一的多视图 TAD 框架,以利用来自多个嵌入的互补信息。
  • 开发将视图对齐、促进视图间协作,并使每个样本的视图贡献自适应的机制。
  • 在多样化数据集和设置下展示前沿性能。
  • 分析鲁棒性、消融研究和超参数,以验证设计选择。

提出的方法

  • 将来自多种预训练语言模型的嵌入用作 TAD 的独立视图。
  • 为每个视图使用独立的 MLPer(自编码器)来执行基于重建的异常分数。
  • 引入跨视图对比协作模块(InfoNCE),以最大化跨视图潜在表示之间的互信息。
  • 结合基于PCA对齐特征和MLP的自适应视图贡献分配模块,以为每个样本分配视图权重。
  • 将基于重建的分数与对比分数结合,利用学习得到的视图权重,形成最终的异常分数。
  • 采用两阶段训练策略:(1) 使用统一的视图权重训练编码器/解码器;(2) 在保持检测主干固定的情况下训练分配模块。
  • 通过联合损失进行优化,将重建损失和对比损失与数据集相关的加权参数融合。
(a) AUROC of different embedding models with (best detector); colors indicate 1st , 2nd , 3rd , and 4th ranks.
(a) AUROC of different embedding models with (best detector); colors indicate 1st , 2nd , 3rd , and 4th ranks.

实验结果

研究问题

  • RQ1来自多个语言模型的嵌入是否能为文本异常检测(TAD)提供超越单一嵌入模型的互补信息?
  • RQ2如何设计跨视图协作以对齐多视图潜在分布,从而提升异常判别?
  • RQ3自适应、逐样本的视图权重分配方案是否能在不同数据集上提升 TAD 性能?
  • RQ4将基于重建的同视图信号与跨视图对比信号结合,是否能带来更优的异常检测?

主要发现

  • MCA 2 在9/10个基准数据集上达到最先进或具竞争力的AUROC,显示出强泛化能力。
  • 消融研究显示对比协作模块是最具影响力的组件,其次是自编码器重建和自适应分配模块。
  • 自适应逐样本视图加权在统一融合相比提升了性能,尤其是在嵌入视图异质的情况下。
  • 该框架对训练数据污染仍然鲁棒,在不同异常注入比率下优于强基线。
  • 使用基于 OpenAI 的嵌入通常能取得良好结果,混合嵌入在某些数据集(如 CovidFake)上也表现良好。
  • 可视化表明数据集对最优视图存在依赖偏好,支持自适应融合的必要性。
(b) Visualization of embedding distributions via t-SNE.
(b) Visualization of embedding distributions via t-SNE.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。