Skip to main content
QUICK REVIEW

[논문 리뷰] Beyond a Single Perspective: Text Anomaly Detection with Multi-View Language Representations

Yixin Liu, Kehan Yan|arXiv (Cornell University)|2026. 01. 25.
Misinformation and Its Impacts인용 수 0
한 줄 요약

MCA 2는 재구성 백본을 통해 다중 사전학습 언어 모델의 임베딩을 결합하고, 뷰 간 대조 협업 및 샘플별 뷰 가중치를 적응적으로 적용하여 다양한 데이터셋에서 탐지를 향상시키는 다중 뷰 텍스트 이상 탐지 프레임워크를 제시한다.

ABSTRACT

Text anomaly detection (TAD) plays a critical role in various language-driven real-world applications, including harmful content moderation, phishing detection, and spam review filtering. While two-step "embedding-detector" TAD methods have shown state-of-the-art performance, their effectiveness is often limited by the use of a single embedding model and the lack of adaptability across diverse datasets and anomaly types. To address these limitations, we propose to exploit the embeddings from multiple pretrained language models and integrate them into $MCA^2$, a multi-view TAD framework. $MCA^2$ adopts a multi-view reconstruction model to effectively extract normal textual patterns from multiple embedding perspectives. To exploit inter-view complementarity, a contrastive collaboration module is designed to leverage and strengthen the interactions across different views. Moreover, an adaptive allocation module is developed to automatically assign the contribution weight of each view, thereby improving the adaptability to diverse datasets. Extensive experiments on 10 benchmark datasets verify the effectiveness of $MCA^2$ against strong baselines. The source code of $MCA^2$ is available at https://github.com/yankehan/MCA2.

연구 동기 및 목표

  • 하나의 임베딩 모델에 의존하는 임베딩 기반 TAD 방법의 강건성과 적응성의 격차를 제시한다.
  • 다중 임베딩으로부터 보완 정보를 활용하기 위한 통합 다중 뷰 TAD 프레임워크를 제안한다.
  • 뷰를 정렬하고, 뷰 간 협업을 촉진하며 샘플별 뷰 기여를 적응시키는 메커니즘을 개발한다.
  • 다양한 데이터셋과 설정에서 최첨단 성능을 시현한다.
  • 설계 선택을 검증하기 위해 강건성, 제거 실험 및 하이퍼파라미터를 분석한다.

제안 방법

  • 다중 사전학습 언어 모델 임베딩을 TAD의 개별 뷰로 사용한다.
  • 각 뷰마다 독립적인 MLPer(오토인코더)를 사용하여 재구성 기반 이상 점수를 수행한다.
  • 뷰 간 잠재 표현 간 상호 정보를 극대화하기 위해 정보NCE(InfoNCE) 기반의 뷰 간 대조 협력 모듈을 도입한다.
  • PCA 정렬 특징과 MLP를 이용한 적응형 뷰 기여 할당 모듈을 도입하여 샘플별 뷰 가중치를 부여한다.
  • 학습된 뷰 가중치를 사용해 재구성 기반 점수와 대조 점수를 결합한 최종 이상 점수를 산출한다.
  • 두 단계 학습 전략을 채택한다: (1) 뷰 가중치를 균일하게 하여 인코더/디코더를 학습; (2) 탐지 백본을 고정한 채 할당 모듈을 학습한다.
  • 데이터셋 의존 가중 파라미터와 함께 재구성 손실과 대조 손실을 결합한 합동 손실로 최적화한다.
(a) AUROC of different embedding models with (best detector); colors indicate 1st , 2nd , 3rd , and 4th ranks.
(a) AUROC of different embedding models with (best detector); colors indicate 1st , 2nd , 3rd , and 4th ranks.

실험 결과

연구 질문

  • RQ1여러 언어 모델의 임베딩이 하나의 임베딩 모델을 넘어 텍스트 이상 탐지(TAD)에 보완 정보를 제공할 수 있는가?
  • RQ2더 나은 이상 탐별 구분을 위해 다중 뷰 잠재 분포를 정렬하도록 뷰 간 협력을 어떻게 설계할 수 있는가?
  • RQ3적응형 샘플별 뷰 가중치 기제가 다양한 데이터셋에서 TAD 성능을 향상시킬 수 있는가?
  • RQ4재구성 기반의 뷰 내 신호와 뷰 간 대조 신호를 결합하는 것이 더 우수한 이상 탐지를 제공하는가?

주요 결과

  • MCA 2는 벤치마크 데이터셋 9/10에서 최첨단 또는 경쟁력 있는 AUROC를 달성하여 강한 일반화성을 입증한다.
  • 제거 연구에서 대조 협력 모듈이 가장 영향력 있는 구성요소로 나타났으며, 그 다음으로 오토인코더 재구성과 적응 할당 모듈이 뒤를 잇는다.
  • 적응형 샘플별 뷰 가중치는 균일한 융합보다 성능을 향상시키며, 이질적인 임베딩 뷰에서 특히 그렇다.
  • 훈련 데이터의 오염에 대해 프레임워크는 강건하며, 다양한 이상 주입 비율에서도 강력한 기준선보다 더 우수하다.
  • OpenAI 기반 임베딩 사용은 일반적으로 강한 성능을 낳으며, 혼합 임베딩은 특정 데이터셋에서 또한 잘 작동한다(예: CovidFake).
  • 시각화 결과는 데이터셋 의존적인 최상위 뷰 선호를 시사하며, 적응적 융합의 필요성을 뒷받침한다.
(b) Visualization of embedding distributions via t-SNE.
(b) Visualization of embedding distributions via t-SNE.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.