Skip to main content
QUICK REVIEW

[論文レビュー] Towards Building an Intelligent Anti-Malware System: A Deep Learning Approach using Support Vector Machine (SVM) for Malware Classification

Abien Fred Agarap|arXiv (Cornell University)|Dec 31, 2017
Advanced Malware Detection Techniques参考文献 14被引用数 73
ひとこと要約

この論文は Malimg に対する多クラス malware ファミリ分類で、DL-SVM モデル(CNN-SVM、GRU-SVM、MLP-SVM)を評価し、GRU-SVM が最も高いテスト精度を達成(約 84.92%)します。

ABSTRACT

Effective and efficient mitigation of malware is a long-time endeavor in the information security community. The development of an anti-malware system that can counteract an unknown malware is a prolific activity that may benefit several sectors. We envision an intelligent anti-malware system that utilizes the power of deep learning (DL) models. Using such models would enable the detection of newly-released malware through mathematical generalization. That is, finding the relationship between a given malware $x$ and its corresponding malware family $y$, $f: x \mapsto y$. To accomplish this feat, we used the Malimg dataset (Nataraj et al., 2011) which consists of malware images that were processed from malware binaries, and then we trained the following DL models 1 to classify each malware family: CNN-SVM (Tang, 2013), GRU-SVM (Agarap, 2017), and MLP-SVM. Empirical evidence has shown that the GRU-SVM stands out among the DL models with a predictive accuracy of ~84.92%. This stands to reason for the mentioned model had the relatively most sophisticated architecture design among the presented models. The exploration of an even more optimal DL-SVM model is the next stage towards the engineering of an intelligent anti-malware system.

研究の動機と目的

  • 見知らぬマルウェア変種へ generalize する知的なアンチマルウェアシステムの必要性を動機づける。
  • SVM を最終分類器として用いる DL ベースのモデルを提案・比較する。
  • Malimg マルウェア画像データセット上でモデルを評価し、スケーラビリティと一般化を評価する。
  • マルウェア分類性能を改善するためのアーキテクチャ設計に関する指針を提供する。

提案手法

  • マルウェアバイナリをグレースケール画像として表現し(32x32)、前処理後に 1024 特徴量へフラット化する。
  • CNN、GRU、MLP のバックボーンに対して線形 L2-SVM を multinomial 分類の one-versus-all で最終分類器として使用する。
  • Adam オプティマイザと特徴量の標準化を用いてモデルを訓練する。
  • Malimg データセットの 70/30 訓練/テスト分割でモデルを評価する。
  • クラスごとの精度、F1、適合率、再現率を含む指標を報告する。

実験結果

リサーチクエスチョン

  • RQ1SVM の最終層を備えた DL アーキテクチャは Malimg 画像からマルウェアファミリを効果的に分類できるか?
  • RQ2どの DL バックボーン(CNN、GRU、MLP)と L2-SVM の組み合わせが最良の多クラスマルウェア分類性能を示すか?
  • RQ3これらのモデルは変異数が異なるマルウェアファミリでどのように性能を発揮するか?

主な発見

VariablesCNN-SVMGRU-SVMMLP-SVM
Accuracy77.2265625%84.921875%80.46875%
Data points256000256000256000
Epochs100100100
F10.790.850.81
Precision0.840.850.83
Recall0.770.850.80
  • GRU-SVM は最も高いテスト精度約 84.92% を達成した。
  • CNN-SVM と MLP-SVM はそれぞれ 77.23% および 80.47% のテスト精度を達成した。
  • GRU-SVM はテストデータで precision 0.85、recall 0.85、F1 0.85 を示した。
  • CNN-SVM は precision 0.84、recall 0.77、F1 0.79 を示した。
  • MLP-SVM は precision 0.83、recall 0.80、F1 0.81 を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。