[論文レビュー] Automated Dynamic Analysis of Ransomware: Benefits, Limitations and use for Detection
EldeRanは高精度でランサムウェアを検出し、完全なファミリーセットを必要とせず新しい亜種を識別するために、動的サンドボックス分析、Mutual Informationによる特徴量選択、および Regularized Logistic Regression を利用します。
Recent statistics show that in 2015 more than 140 millions new malware samples have been found. Among these, a large portion is due to ransomware, the class of malware whose specific goal is to render the victim's system unusable, in particular by encrypting important files, and then ask the user to pay a ransom to revert the damage. Several ransomware include sophisticated packing techniques, and are hence difficult to statically analyse. We present EldeRan, a machine learning approach for dynamically analysing and classifying ransomware. EldeRan monitors a set of actions performed by applications in their first phases of installation checking for characteristics signs of ransomware. Our tests over a dataset of 582 ransomware belonging to 11 families, and with 942 goodware applications, show that EldeRan achieves an area under the ROC curve of 0.995. Furthermore, EldeRan works without requiring that an entire ransomware family is available beforehand. These results suggest that dynamic analysis can support ransomware detection, since ransomware samples exhibit a set of characteristic features at run-time that are common across families, and that helps the early detection of new variants. We also outline some limitations of dynamic analysis for ransomware and propose possible solutions.
研究の動機と目的
- 動的行動特徴を分析することによって、ランサムウェアを初期段階で識別できるか評価する。
- ランサムウェア検出のための最も情報価値の高い動的特徴を特定する。
- このタスクにおいて Regularized Logistic Regression を SVM および Naive Bayes と比較する。
- 新しいランサムウェアファミリーを検出する EldeRan の能力を評価し、 VirusTotal と比較する。
提案手法
- サンドボックス(Cuckoo Sandbox)内でサンプルの動的分析を行い、特徴量を収集する: Windows API calls, Registry operations, File System operations, per-file extension operations, Directory operations, Dropped files, and Strings.
- Mutual Informationを用いた特徴量選択で、大規模な特徴量集合から最も識別能の高い特徴を選択する。
- Batch gradient descentとクロスエントロピー損失を用いて訓練された Regularized Logistic Regression (L2 regularization) による分類。
- トレーニング済み分類器を用いたユーザーPC上でのオンラインライブ検出、サンドボックス化されたデータセットでのオフライン訓練を併用。
- Dataset composition: 582 ransomware samples across 11 families and 942 goodware samples; analysis in a Windows XP SP2 sandbox for 30 seconds per sample; features reduced to top 400 by MI.
実験結果
リサーチクエスチョン
- RQ1動的行動特徴を分析することによって、ランサムウェアを初期段階で識別できるか評価する。
- RQ2このタスクにおいて Regularized Logistic Regression を SVM および Naive Bayes と比較する。
- RQ3新しい、未見のランサムウェアファミリーを、ファミリー全体の可用性を要求せず検出できるか。
- RQ4EldeRanは VirusTotal のラベルと比較してランサムウェア検出の性能はどうか。
主な発見
- AUC of 0.995 on the ransomware vs goodware dataset.
- EldeRan average error rate of 2.4%, versus VirusTotal at 5.6%.
- Detection rate of 96.3% for known samples.
- Average detection rate of 93.3% for new, unseen ransomware families.
- Regularized Logistic Regression slightly outperforms SVM and outperforms Naive Bayes; MI-based feature selection with 400 top features balances performance and simplicity.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。