QUICK REVIEW

[論文レビュー] Malware Classification using Deep Learning based Feature Extraction and Wrapper based Feature Selection Technique

Muhammad Furqan Rafique, Muhammad Ali|arXiv (Cornell University)|Oct 24, 2019

Advanced Malware Detection Techniques参考文献 29被引用数 23

ひとこと要約

本論文は、2つの深層畳み込みニューラルネットワーク（CNN）から得られるバイトレベル特徴と、SVMを評価指標として用いたラッピングベースの手法による選択されたオペコード特徴を組み合わせた、深層学習に基づくマルウェア分類フレームワークを提案する。ハイブリッド特徴空間はマルチレイヤーパーセプトロンに供給され、10回の実行でログロス0.09を達成し、9つのマルウェアファミリーの分類においてベースライン分類器よりも優れた性能を示した。

ABSTRACT

In the case of malware analysis, categorization of malicious files is an essential part after malware detection. Numerous static and dynamic techniques have been reported so far for categorizing malware. This research presents a deep learning-based malware detection (DLMD) technique based on static methods for classifying different malware families. The proposed DLMD technique uses both the byte and ASM files for feature engineering, thus classifying malware families. First, features are extracted from byte files using two different Deep Convolutional Neural Networks (CNN). After that, essential and discriminative opcode features are selected using a wrapper-based mechanism, where Support Vector Machine (SVM) is used as a classifier. The idea is to construct a hybrid feature space by combining the different feature spaces to overcome the shortcoming of particular feature space and thus, reduce the chances of missing a malware. Finally, the hybrid feature space is used to train a Multilayer Perceptron, which classifies all nine different malware families. Experimental results show that proposed DLMD technique achieves log-loss of 0.09 for ten independent runs. Moreover, the proposed DLMD technique's performance is compared against different classifiers and shows its effectiveness in categorizing malware. The relevant code and database can be found at https://github.com/cyberhunters/Malware-Detection-Using-Machine-Learning.

研究の動機と目的

静的解析における正確なマルウェアファミリー分類の課題に対処するため、複数の特徴表現を統合すること。
深層学習に基づく特徴抽出とラッピングベースの特徴選択手法を統合することで分類性能を向上させること。
バイトおよびアセンブリレベルの特徴から構築されたハイブリッド特徴空間により、誤検出を低減すること。
提案手法の有効性を、従来の分類器と比較してマルウェアファミリー分類の文脈で評価すること。
公開可能なコードとデータセットを備えた再現可能なフレームワークを提供すること。

提案手法

生のバイトファイルを入力として、2つの独立した深層畳み込みニューラルネットワーク（CNN）を訓練し、特徴の低レベルおよび高レベル表現を抽出する。
ASM（アセンブリ）ファイルからオペコードシーケンスを抽出し、マルウェア分析用の特徴ベクトルに変換する。
SVMを評価指標として用いたラッピングベースの特徴選択手法を適用し、最も情報量が多く、判別力のあるオペコード特徴を選択する。
選択されたオペコード特徴を、CNNで抽出されたバイトレベル特徴と組み合わせ、ハイブリッド特徴空間を構築する。
9つの異なるマルウェアファミリーを分類するために、ハイブリッド特徴空間上でマルチレイヤーパーセプトロン（MLP）を訓練する。
パイプライン全体を10回の独立した実行で評価し、モデルの頑健性と一般化性能を確認する。

実験結果

リサーチクエスチョン

RQ1深層学習に基づくバイトレベル特徴と、ラッピング最適化されたオペコード特徴を組み合わせることで、マルウェアファミリー分類の正確性が向上するか？
RQ2本手法で構築されたハイブリッド特徴空間は、個々の特徴空間（バイトまたはオペコードのみ）と比較して、分類性能においてどのように異なるか？
RQ3SVMを用いたラッピングベースの特徴選択が、最終的なマルウェア分類器の性能に与える影響は何か？
RQ4本手法は、従来の分類器と比較して、マルウェアファミリー分類においてより低いログロスを達成するか？
RQ5本フレームワークは複数回の実行にわたり一般化可能であり、多様なマルウェアファミリーの分類において一貫した性能を維持できるか？

主な発見

提案された深層学習ベースのマルウェア検出（DLMD）手法は、10回の独立した実行でログロス0.09を達成し、モデルの安定性と高い性能を示している。
CNNで抽出されたバイト特徴と、ラッピングで選択されたオペコード特徴を組み合わせたハイブリッド特徴空間は、単一の特徴空間アプローチよりも顕著に分類精度を向上させた。
ラッピングベースの特徴選択手法は、最も判別力のあるオペコード特徴を効果的に同定し、ノイズを低減し、モデルの一般化性能を向上させた。
ハイブリッド特徴空間上で訓練されたマルチレイヤーパーセプトロンは、9つの異なるマルウェアファミリーの分類においてベースライン分類器を上回った。
本手法は頑健性と一貫性を示し、複数回の学習実行における性能の分散が小さく、安定した性能を維持した。
ソースコードとデータセットは公開されており、マルウェア分類研究における再現性とさらなる研究を可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。