Skip to main content
QUICK REVIEW

[論文レビュー] Beyond a Single Perspective: Text Anomaly Detection with Multi-View Language Representations

Yixin Liu, Kehan Yan|arXiv (Cornell University)|Jan 25, 2026
Misinformation and Its Impacts被引用数 0
ひとこと要約

MCA 2は、複数の事前学習済み言語モデルからの埋め込みを再構成バックボーン、ビュー間対照的協調、そしてサンプルごとの適応的なビュー重み付けを用いて組み合わせるマルチビュー文書異常検知フレームワークを提示し、多様なデータセットにわたる検出性能を向上させる。

ABSTRACT

Text anomaly detection (TAD) plays a critical role in various language-driven real-world applications, including harmful content moderation, phishing detection, and spam review filtering. While two-step "embedding-detector" TAD methods have shown state-of-the-art performance, their effectiveness is often limited by the use of a single embedding model and the lack of adaptability across diverse datasets and anomaly types. To address these limitations, we propose to exploit the embeddings from multiple pretrained language models and integrate them into $MCA^2$, a multi-view TAD framework. $MCA^2$ adopts a multi-view reconstruction model to effectively extract normal textual patterns from multiple embedding perspectives. To exploit inter-view complementarity, a contrastive collaboration module is designed to leverage and strengthen the interactions across different views. Moreover, an adaptive allocation module is developed to automatically assign the contribution weight of each view, thereby improving the adaptability to diverse datasets. Extensive experiments on 10 benchmark datasets verify the effectiveness of $MCA^2$ against strong baselines. The source code of $MCA^2$ is available at https://github.com/yankehan/MCA2.

研究の動機と目的

  • 単一の埋め込みモデルに依存する埋め込みベースのTAD手法における頑健性と適応性のギャップを動機づける。
  • 複数の埋め込みから得られる相補情報を活用する統一的なマルチビューTADフレームワークを提案する。
  • ビューを整合させ、ビュー間協調を促進し、サンプルごとにビュー寄与を適応させる仕組みを開発する。
  • 多様なデータセットと設定で最先端のパフォーマンスを実証する。
  • 設計選択を検証するために頑健性、アブレーション、ハイパーパラメータを分析する。

提案手法

  • 複数の事前学習済み言語モデルの埋め込みを、TADの別個のビューとして利用する。
  • 各ビューに対して独立したMLPer(オートエンコーダ)を用い、再構成ベースの異常スコアリングを行う。
  • ビュー間の潜在表現間の相互情報を最大化するためのビュー間対照協調モジュール(InfoNCE)を導入する。
  • PCA揃え特徴とMLPを用いた適応的なビュー寄与割り当てモジュールを組み込み、サンプルごとにビュー重みを割り当てる。
  • 再構成ベースのスコアと対照スコアを学習済みビュー重みと結合して最終的な異常スコアとする。
  • 2段階の学習戦略を採用する:(1)均一なビュー重みでエンコーダ/デコーダを訓練する;(2)検出バックボーンを固定したまま割り当てモジュールを訓練する。
  • データセット依存の重み付けパラメータを用いて、再構成損失と対照損失を組み合わせたジョイント損失で最適化する。
(a) AUROC of different embedding models with (best detector); colors indicate 1st , 2nd , 3rd , and 4th ranks.
(a) AUROC of different embedding models with (best detector); colors indicate 1st , 2nd , 3rd , and 4th ranks.

実験結果

リサーチクエスチョン

  • RQ1複数の言語モデルからの埋め込みは、単一の埋め込みモデルを超えてテキスト異常検知(TAD)に補完的な情報を提供できるのか?
  • RQ2ビュー間協調をどのように設計して、多視点の潜在分布を整列させ、異常識別を高めるのか?
  • RQ3適応的なサンプルごとのビュー重み付けスキームは、多様なデータセットでTADの性能を改善できるのか?
  • RQ4再構成ベースの intra-view シグナルとビュー間対照信号を組み合わせると、より優れた異常検知を実現できるのか?

主な発見

  • MCA 2は9/10のベンチマークデータセットで最先端または競合的なAUROCを達成し、強力な一般化能力を示している。
  • アブレーション研究は、対照協調モジュールが最も影響力のある要素であることを示し、それに続いてオートエンコーダ再構成と適応的割り当てモジュールが重要である。
  • 適応的なサンプルごとのビュー重み付けは、均一な統合より性能を向上させ、特に異種の埋め込みビューで顕著である。
  • 学習データの汚染に対しても頑健で、異常注入比が異なる状況でも強力なベースラインを上回る。
  • OpenAIベースの埋め込みを用いると一般に高い結果を得られ、混合埋め込みも特定のデータセット(例:CovidFake)で良好に機能する。
  • 視覚化はデータセット依存のトップビューの嗜好を示し、適応的な融合の必要性を裏付けている。
(b) Visualization of embedding distributions via t-SNE.
(b) Visualization of embedding distributions via t-SNE.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。