Skip to main content
QUICK REVIEW

[論文レビュー] Spam Detection Using BERT

Thaer Sahmoud, Mohammad A. Mikki|arXiv (Cornell University)|Jun 6, 2022
Spam and Phishing Detection被引用数 24
ひとこと要約

この論文は事前学習済みの BERT モデルを使用してスパム検出器を構築し、複数のコーパスで評価して SMS とメールデータセットの高い精度を達成する。スパムと正当なメッセージの文脈を考慮した分類を強力に示す。

ABSTRACT

Emails and SMSs are the most popular tools in today communications, and as the increase of emails and SMSs users are increase, the number of spams is also increases. Spam is any kind of unwanted, unsolicited digital communication that gets sent out in bulk, spam emails and SMSs are causing major resource wastage by unnecessarily flooding the network links. Although most spam mail originate with advertisers looking to push their products, some are much more malicious in their intent like phishing emails that aims to trick victims into giving up sensitive information like website logins or credit card information this type of cybercrime is known as phishing. To countermeasure spams, many researches and efforts are done to build spam detectors that are able to filter out messages and emails as spam or ham. In this research we build a spam detector using BERT pre-trained model that classifies emails and messages by understanding to their context, and we trained our spam detector model using multiple corpuses like SMS collection corpus, Enron corpus, SpamAssassin corpus, Ling-Spam corpus and SMS spam collection corpus, our spam detector performance was 98.62%, 97.83%, 99.13% and 99.28% respectively. Keywords: Spam Detector, BERT, Machine learning, NLP, Transformer, Enron Corpus, SpamAssassin Corpus, SMS Spam Detection Corpus, Ling-Spam Corpus.

研究の動機と目的

  • メールとSMS通信の増加に伴う効果的なスパム検出の必要性を動機付ける。
  • メッセージの文脈的手掛かりを捉える BERT ベースのスパム検出アプローチを提案する。
  • 複数の公開コーパスでモデルを評価し、ドメイン横断の一般化を示す。

提案手法

  • スパム検出の分類器として事前学習済みの BERT を利用する。
  • 複数のコーパスで訓練・評価する: SMS コレクションコーパス、Enron コーパス、SpamAssassin コーパス、Ling-Spam コーパス、および SMS スパム収集コーパス。
  • 各コーパスでの性能指標(精度)を報告し、有効性を示す。

実験結果

リサーチクエスチョン

  • RQ1BERT ベースのモデルは、多様なコーパスを跨いでスパムと正当なメッセージを高精度で分類できるか。
  • RQ2SMS データセットとメールデータセットでのモデルの性能は、従来のベースラインと比べてどうか。
  • RQ3データセット特化の調整なしに、複数のスパムデータセットを横断して一般化できるか。

主な発見

  • モデルは 1 つのコーパスで 98.62% の精度、別のコーパスで 97.83%、別のコーパスで 99.13%、別のコーパスで 99.28% の精度を達成。
  • Enron、SpamAssassin、Ling-Spam、および SMS スパムデータセットを含む SMS およびメールコレクション全体で高い性能を示しています。
  • 結果は、要旨で下限ベースラインを報告せずに、BERT を用いた強力な文脈認知型のスパム検出を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。