[논문 리뷰] Spam-T5: Benchmarking Large Language Models for Few-Shot Email Spam Detection
이 논문은 세 가지 패밀리(BERT 계열, Sentence Transformer, Seq2Seq)와 기존 베이스라인을 대상으로 이메일 스팸 탐지에서 LLM을 벤치마크하고, 적은 샷 시나리오에서 뛰어난 성능을 보이는 Flan-T5 미세조정 모델인 Spam-T5를 도입합니다.
This paper investigates the effectiveness of large language models (LLMs) in email spam detection by comparing prominent models from three distinct families: BERT-like, Sentence Transformers, and Seq2Seq. Additionally, we examine well-established machine learning techniques for spam detection, such as Naïve Bayes and LightGBM, as baseline methods. We assess the performance of these models across four public datasets, utilizing different numbers of training samples (full training set and few-shot settings). Our findings reveal that, in the majority of cases, LLMs surpass the performance of the popular baseline techniques, particularly in few-shot scenarios. This adaptability renders LLMs uniquely suited to spam detection tasks, where labeled samples are limited in number and models require frequent updates. Additionally, we introduce Spam-T5, a Flan-T5 model that has been specifically adapted and fine-tuned for the purpose of detecting email spam. Our results demonstrate that Spam-T5 surpasses baseline models and other LLMs in the majority of scenarios, particularly when there are a limited number of training samples available. Our code is publicly available at https://github.com/jpmorganchase/emailspamdetection.
연구 동기 및 목표
- 데이터 부족, 분포 변화, 적대적 드리프트 상황에서 이메일의 효과적인 스팸 탐지 필요성을 제시한다.
- 네 가지 공개 데이터셋에서 여러 가족의 LLM과 전통 베이스라인 비교 평가한다.
- 이메일 스팸 탐지에 특화된 Flan-T5 미세조정 모델 Spam-T5를 개발한다.
- 전체 훈련 및 소량 학습 시 성능을 평가해 데이터 효율성 및 일반화 이해를 높인다.
제안 방법
- RoBERTa(BERT 계열), SetFit(Sentence Transformer), Flan-T5(Seq2Seq)를 Naïve Bayes, Logistic Regression, KNN, SVM, XGBoost, LightGBM과 비교한다.
- 모델별 하이퍼파라미터(배치 크기, 학습률, 에폭)를 미세조정하고 tf-idf 기반 베이스라인은 층화 5-폴드 교차 검증을 통한 특징 선택을 수행한다.
- Flan-T5를 분류 접두사 “classify as ham or spam:”를 추가해 Spam-T5로 변환하고 출력 후처리를 이진 레이블로 수행한다.
- 네 가지 데이터셋(Ling-Spam, SMS Spam Collection, SpamAssassin Public Corpus, Enron)을 사용하고 F1, 정밀도, 재현율로 평가한다.
- 전체 데이터의 80%를 사용한 전체 훈련과 k를 {4,8,16,32,64,128,256,Full} 샘플로 구성된 소량 학습 실험을 수행한다.
실험 결과
연구 질문
- RQ1최고의 LLM이 전체 훈련과 소량 학습 스팸 탐지 설정에서 전통적 베이스라인보다 어떻게 비교되는가?
- RQ2매우 소량 샘플 시나리오에서 미세조정된 Seq2Seq 모델(Spam-T5)이 다른 LLM보다 우수한가?
- RQ3스팸 탐지에 LLM을 사용할 때 전통 모델 대비 정확도와 계산 효율성 간의 trade-off는 무엇인가?
- RQ4다른 스팸/합법 분포를 가진 데이터셋이 모델 성능에 어떤 영향을 미치는가?
- RQ5Spam-T5는 다양한 학습 샘플 크기에서 견고함을 유지하는가?
주요 결과
- LLMs는 일반적으로 전체 훈련 설정에서 SMS 및 Enron 데이터셋에서 베이스라인 방법을 능가한다.
- Spam-T5는 전체 훈련 결과에서 가장 높은 Overall F1(평균 0.9742)을 달성하고, RoBERTa와 SetFit가 근접하게 뒤를 잇는다(0.9670).
- 소량 학습 설정에서 Spam-T5가 매우 소량 샘플(4–16 샘플)에서 우위를 점하고 샘플 크기에 따라 견고함을 유지한다.
- 데이터셋에 걸쳐 평균적으로 보자면 베이스라인 중 SVM이 가장 잘 수행하는 경향을 보이고(평균 F1 0.9560), XGBoost는 가장 약했다(0.8842).
- Spam-T5는 특히 레이블링 데이터가 부족한 경우 강한 성능을 보이며 소량 학습 데이터 효율성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.