QUICK REVIEW

[論文レビュー] MalBERT: Using Transformers for Cybersecurity and Malicious Software Detection

Abir Rahali, Moulay A. Akhloufi|arXiv (Cornell University)|Mar 5, 2021

Advanced Malware Detection Techniques参考文献 31被引用数 23

ひとこと要約

本稿では、Androidアプリのソースコードをテキストとして扱い、静的マルウェア検出を目的とした新しいTransformerベースのモデル、MalBERTを提案する。事前学習済みの特徴（権限、インテント、アクティビティなど）を用いてBERTを微調整することで、二値分類では97.61%の精度、マルチクラスのマルウェア分類では91.02%の精度を達成し、LSTMや他のTransformerベースラインを上回った。

ABSTRACT

In recent years we have witnessed an increase in cyber threats and malicious software attacks on different platforms with important consequences to persons and businesses. It has become critical to find automated machine learning techniques to proactively defend against malware. Transformers, a category of attention-based deep learning techniques, have recently shown impressive results in solving different tasks mainly related to the field of Natural Language Processing (NLP). In this paper, we propose the use of a Transformers' architecture to automatically detect malicious software. We propose a model based on BERT (Bidirectional Encoder Representations from Transformers) which performs a static analysis on the source code of Android applications using preprocessed features to characterize existing malware and classify it into different representative malware categories. The obtained results are promising and show the high performance obtained by Transformer-based models for malicious software detection.

研究の動機と目的

従来の検出手法では回避される高度なマルウェアの増加する脅威に対処する。
特にBERTを含むTransformerベースのモデルが、Androidマルウェアの静的解析において有効であるかを検証する。
自然言語処理（NLP）スタイルの分類を可能にするために、ソースコードを権限、インテント、アクティビティなどのトークンのシーケンスとして表現する、新たな特徴表現を構築する。
事前学習済み言語モデルが、LSTMのようなRNNベースのモデルを上回ることを実証する。
将来的な研究を支援するため、11のカテゴリを含む事前処理済みAndroidマルウェアデータセットを公開する。

提案手法

Androidアプリのソースコードを前処理し、権限、インテント、アクティビティ、APIコールなどのキーフィーチャーをテキストシーケンスとして抽出・表現する。
前処理済みのコード特徴を自然言語入力として扱い、二値分類（マルウェア／健全）およびマルチクラス分類（11のマルウェアカテゴリ）の両方において、事前学習済みBERTモデルを微調整する。
Transformerアーキテクチャのアテンションメカニズムを活用し、コード構造内の長距離依存関係や重要なパターンを捉える。
公開済みのAndroidマルウェアデータセット（Androzoo）を用い、11のマルウェアカテゴリを対象に、BERTモデルの微調整を実施することでトランスファー学習を適用する。
ホールドアウトされたテストセットを用いて、精度、マシューフェアコefficient（MCC）、F1スコア、交差エントロピー損失の指標で性能を評価する。
LSTM、XLNet、RoBERTa、DistilBERTなどのベースラインモデルと比較し、相対的な性能を評価する。

実験結果

リサーチクエスチョン

RQ1事前学習済みのTransformerモデル（例：BERT）を、ソースコードをテキスト入力として用いることで、静的マルウェア検出に効果的に適応できるか？
RQ2LSTMのような従来のRNNベースのモデルや、他の事前学習済みNLPモデルと比較して、BERTベースのマルウェア検出は性能で優れているか？
RQ3XLNet、RoBERTa、DistilBERTなどの異なる事前学習言語モデルが、マルウェア分類の精度と一般化性能に与える影響は何か？
RQ4Androidのソースコードを権限、インテントなどのトークンのシーケンスとしてモデル化することで、マルウェア分類のための有効な表現学習が可能になるか？
RQ5微調整済みBERTは、実世界のAndroidマルウェアデータセットにおいて、二値分類とマルチクラス分類の両方で高い性能を達成できるか？

主な発見

BERTは二値分類で97.61%の最高精度を達成し、LSTM（94.05%）、XLNet（95.79%）、RoBERTa（95.33%）、DistilBERT（95.42%）を顕著に上回った。
11カテゴリのマルチクラスマルウェア分類において、BERTは91.02%の精度を達成し、すべてのベースライン（LSTM：85.07%、DistilBERT：59.81%）を上回った。
BERTは二値分類で最高のマシューフェアコefficient（MCC）0.9559を達成し、不均衡データに対して優れた性能を示した。
損失が上昇し始めるまでの微調整にわずか2エポックで収束したため、最適な初期学習率で効率的な収束が確認された。
二値分類において、BERTの交差エントロピー損失は0.1274と最小となり、他のモデルと比較してより良好なモデルキャリブレーションを示した。
本研究では、ソースコードをNLPベースのマルウェア検出に適したテキストトークンのシーケンスとして表現できることを実証し、高性能な分類が可能であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。