QUICK REVIEW

[論文レビュー] A Survey of Machine Learning Methods and Challenges for Windows Malware Classification

Edward Raff, Charles Nicholas|arXiv (Cornell University)|Jun 15, 2020

Advanced Malware Detection Techniques参考文献 225被引用数 37

ひとこと要約

本調査は機械学習が Windows PE マルウェア分類にどのように適用されているかを概説し、データ収集、特徴量抽出、モデリング手法、評価、および主要な実務上の課題を詳述します。

ABSTRACT

Malware classification is a difficult problem, to which machine learning methods have been applied for decades. Yet progress has often been slow, in part due to a number of unique difficulties with the task that occur through all stages of the developing a machine learning system: data collection, labeling, feature creation and selection, model selection, and evaluation. In this survey we will review a number of the current methods and challenges related to malware classification, including data collection, feature extraction, and model construction, and evaluation. Our discussion will include thoughts on the constraints that must be considered for machine learning based solutions in this domain, and yet to be tackled problems for which machine learning could also provide a solution. This survey aims to be useful both to cybersecurity practitioners who wish to learn more about how machine learning can be applied to the malware problem, and to give data scientists the necessary background into the challenges in this uniquely complicated space.

研究の動機と目的

データ収集から評価まで、Windows マルウェア分類のエンドツーエンドの ML パイプラインを特定する。
静的特徴量と動的特徴量抽出手法とそのトレードオフを要約する。
特徴表現（ベクトル、シーケンス、グラフ）に対して用いられる一般的な ML モデルとその適用性を調査する。
実務展開に影響を与える実務的制約、データラベリング、再現性の課題について論じる。
さらなる調査が必要な未解決の研究課題と分野を強調する。

提案手法

特徴を静的と動的のカテゴリに分類し、代表的な表現形式（固定長、シーケンス、グラフ）を要約する。
API 呼び出し、システム変化、ネットワーク活動を追跡する動的特徴抽出手法を説明する。
生のバイト列、エントロピー、PE ヘッダ、ディスassembly 出力からの静的特徴量抽出を論じる。
標準的なベクトルベース手法、シーケンスモデル、グラフベース手法を含むモデリングアプローチを概説する。
評価の課題と標準データセットの不足、およびラベリングバイアスについて論じる。
データ収集、ラベリングコスト、概念ドリフトを根本的な障害として扱う。

実験結果

リサーチクエスチョン

RQ1Windows マルウェア ML パイプラインにおける主なデータ収集とラベリングの課題は何か？
RQ2静的、動的、グラフベースの特徴は Windows PE マルウェア分類でどのように比較されるか？
RQ3この領域で異なる特徴表現（ベクトル、シーケンス、グラフ）に最も適した ML モデルは何か？
RQ4研究間比較を妨げる主要な評価と再現性の課題は何か？
RQ5実務的なマルウェア分類システムに最も影響を与える将来の方向性と未解決問題は何か？

主な発見

データ収集とラベリングは主要なボトルネックであり、ホニーポット、VirusTotal の閾値、標準データセットの欠如によるバイアスがある。
静的特徴と動的特徴にはそれぞれ長所と短所があり、動的解析では難読化や VM 検出の問題を含む。
概念ドリフトと敵対的回避は、時間とともにモデルの汎化に対する継続的な課題である。
標準データセットの欠如（過去には Windows にインストールされたバイナリに依存）により、研究間比較と再現性が妨げられる。
AV ベースのラベリングはバイアスを生み、決定境界近くの難例を反映しない場合がある。
グラフベースの表現は強力だが、ベクトルやシーケンス手法に比べて十分に活用されていない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。