Skip to main content
QUICK REVIEW

[論文レビュー] Empirical Evaluation of SMOTE in Android Malware Detection with Machine Learning: Challenges and Performance in CICMalDroid 2020

Diego Ferreira Duarte, André Augusto Bortoli|arXiv (Cornell University)|Feb 9, 2026
Advanced Malware Detection Techniques被引用数 0
ひとこと要約

SMOTEはCICMalDroid 2020のマルウェア検知において、全体的にパフォーマンスを低下させる傾向があり、XGBoostやRandom Forestのような木構造アンサンブルが最も良い結果を示す。SMOTEはほとんどまたは全く利益をもたらさず、線形モデルには悪影響となる可能性がある。

ABSTRACT

Malware, malicious software designed to damage computer systems and perpetrate scams, is proliferating at an alarming rate, with thousands of new threats emerging daily. Android devices, prevalent in smartphones, smartwatches, tablets, and IoTs, represent a vast attack surface, making malware detection crucial. Although advanced analysis techniques exist, Machine Learning (ML) emerges as a promising tool to automate and accelerate the discovery of these threats. This work tests ML algorithms in detecting malicious code from dynamic execution characteristics. For this purpose, the CICMalDroid2020 dataset, composed of dynamically obtained Android malware behavior samples, was used with the algorithms XGBoost, Naıve Bayes (NB), Support Vector Classifier (SVC), and Random Forest (RF). The study focused on empirically evaluating the impact of the SMOTE technique, used to mitigate class imbalance in the data, on the performance of these models. The results indicate that, in 75% of the tested configurations, the application of SMOTE led to performance degradation or only marginal improvements, with an average loss of 6.14 percentage points. Tree-based algorithms, such as XGBoost and Random Forest, consistently outperformed the others, achieving weighted recall above 94%. It is inferred that SMOTE, although widely used, did not prove beneficial for Android malware detection in the CICMalDroid2020 dataset, possibly due to the complexity and sparsity of dynamic characteristics or the nature of malicious relationships. This work highlights the robustness of tree-ensemble models, such as XGBoost, and suggests that algorithmic data balancing approaches may be more effective than generating synthetic instances in certain cybersecurity scenarios

研究の動機と目的

  • CICMalDroid 2020 からの動的挙動特徴を用いてAndroidでのマルウェア検知を動機づける。
  • 複数のMLアルゴリズムに対するSMOTEのパフォーマンス影響を評価する。
  • サイバーセキュリティ文脈においてクラス不均衡に対して最も頑健なアルゴリズムを特定する。

提案手法

  • CICMalDroid 2020データセット(11,598サンプル)を動的挙動特徴とともに使用する。
  • 4つのMLアルゴリズムを評価する:XGBoost、Naïve Bayes、Support Vector Classifier、Random Forest。
  • クラス不均衡に対処するためにSMOTEを適用し、SMOTE非適用設定と比較する。
  • モデルごとに前処理、特徴量スケーリング/選択、次元削減を必要に応じて実施する。
  • Optuna(TPESampler)とプルーニングを用いたハイパーパラメータ最適化を、ネストした交差検証(外部5分割、内部5分割)内で実施する。
  • 再現性のために分割を層化し、シードを固定して主に加重リコールで性能を測定する。

実験結果

リサーチクエスチョン

  • RQ1CICMalDroid 2020において、SMOTEは異なるMLアルゴリズムのマルウェア検知性能を改善するか、それとも低下させるか?
  • RQ2このAndroidマルウェア検知タスクで不均衡クラスに対して最も頑健なMLモデルはどれか?
  • RQ3前処理とハイパーパラメータ最適化はSMOTEの有効性とモデル性能にどのように影響するか?
  • RQ4このデータセットにおいて木構造系アンサンブルと線形モデルの間に明確な勝者はいるか?
  • RQ5SMOTEのこの文脈での限られた利点の説明は何か?

主な発見

  • 検討された設定のうち75%でSMOTEは性能を低下させるか、または利点がわずかである(平均損失は6.14ポイント)。
  • Naïve Bayesモデルは全体的にパフォーマンスが低く、SMOTEは試行した全NB設定で一貫して劣化を引き起こす。
  • Random ForestとXGBoostが最上位の性能を達成し、RFは変種全体で加重リコール約92–94%、XGBoostは最良の設定でSMOTEを用いて最大95.40%に到達。
  • 線形SVM系は安定したまたはわずかに変動する性能を示し、RBF SVCは高く安定した性能を維持し、SMOTEの影響は最小限。
  • 一般にXGBoostは他モデルを上回る傾向が強く、SMOTEは追加的な利益をほとんど提供しない。これはXGBoostが不均衡データを内部的に扱うためであり、線形モデルは合成サンプルにより影響を受けやすい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。