QUICK REVIEW

[論文レビュー] A Benchmark API Call Dataset for Windows PE Malware Classification

Ferhat Özgür Çatak, Ahmet Faruk Yazı|arXiv (Cornell University)|May 6, 2019

Advanced Malware Detection Techniques参考文献 10被引用数 23

ひとこと要約

この論文では、多様なファミリーにまたがる7,107個のWindows PEマルウェアサンプルからなるベンチマークデータセットを紹介している。これらのサンプルは、実行中のAPI呼び出しの順序を記録するためにサンドボックス環境で収集された。著者らは、メタモービックな挙動ですらも、マルウェアファミリーが一貫した相関のあるAPI呼び出しパターンを示すことを実証した。これにより、機械学習モデルを用いた行動ベースの分類が有効に可能となり、本データセットは研究の進展を促すために公開されている。

ABSTRACT

The use of operating system API calls is a promising task in the detection of PE-type malware in the Windows operating system. This task is officially defined as running malware in an isolated sandbox environment, recording the API calls made with the Windows operating system and sequentially analyzing these calls. Here, we have analyzed 7107 different malicious software belonging to various families such as virus, backdoor, trojan in an isolated sandbox environment and transformed these analysis results into a format where different classification algorithms and methods can be used. First, we'll explain how we got the malware, and then we'll explain how we've got these software bundled into families. Finally, we will describe how to perform malware classification tasks using different computational methods for the researchers who will use the data set we have created.

研究の動機と目的

API呼び出しシーケンスに基づいたマルウェア分類モデルの評価に用いる標準化されたベンチマークデータセットの不足に対処すること。
Windows PEマルウェアのスケーラブルで多様なデータセットを収集・構造化し、ファミリー分類ラベルを付与すること。
研究者が実世界の行動ベースのマルウェアパターンを用いて機械学習モデルの学習とテストができるようにすること。
コードの難読化やメタモーフィックな挙動がある中でも、マルウェアファミリー間でAPI呼び出しシーケンスの一貫性があるかを調査すること。
研究コミュニティがアクセス可能で再現可能なデータセットを提供し、行動ベースのマルウェア検出分野の研究を加速させること。

提案手法

マルウェアサンプルは、GitHubを含む公開ソースから収集され、ハッシュマッチングによるVirusTotalでの検証を通じてファミリー分類が確認された。
各サンプルはCuckooサンドボックス環境で実行され、実行中のすべてのWindows API呼び出しをログ記録した。
API呼び出しシーケンスは抽出され、順序を保持したまま正規化され、後続の分類タスクに適した形にされた。
VirusTotalのファミリーラベルに基づき、6つの明確なカテゴリに分類された：ダウンローダ、ワーム、スパイウェア、アドウェア、ドロッパー、ウイルス。
各マルウェアファミリー内で頻繁に共起するAPI呼び出しペアを特定するために相関分析が実施された。
研究コミュニティのアクセス性と再現可能性を確保するため、データセットはGitHubに公開された。

実験結果

リサーチクエスチョン

RQ1Windows PEマルウェアのAPI呼び出しシーケンスからなるベンチマークデータセットは、マルウェア分類モデルの評価と比較を改善できるか？
RQ2コードの難読化やメタモーフィックな挙動があっても、異なるマルウェアファミリーはAPI呼び出しシーケンスに特徴的で一貫したパターンを示すか？
RQ3特定のマルウェアファミリー内で最も強く相関するAPI呼び出しペアは何か？これらのパターンは分類精度の向上に寄与できるか？
RQ4メタモーフィックなマルウェアは、変種間でAPI呼び出しシーケンスの行動的一貫性をどの程度維持しているか？
RQ5提案されたデータセットは、LSTMのようなシーケンスベースのモデルの開発を支援できるか？

主な発見

データセットには6つの異なるファミリーにまたがる7,107個のユニークなマルウェアサンプルが含まれており、サンドボックス実行による包括的なAPI呼び出しログが記録されている。
各マルウェアファミリー内で顕著なAPI呼び出し相関が観察され、一部のペアでは完全相関（r = 1.0）が確認された。例えばアドウェアでは「getfileversioninfosizew」と「findresourcew」のペアが完全相関を示した。
ドロッパーおよびワームファミリーでは、5〜10個の高相関API呼び出しが観察され、一貫した行動パターンが示された。
最も頻繁に共起するAPI呼び出しペアには、「ntcreatethreadex」と「ntsetinformationfile」、「ntprotectvirtualmemory」と「setwindowshookexa」、「ntcreatesection」と「writeprocessmemory」が含まれた。
このデータセットは、シーケンスベースのモデルの効果的な学習を可能にし、LSTMベースのマルウェア検出システムへの成功応用の証拠が得られた。
本研究では、メタモーフィックな難読化があっても、マルウェアファミリーが一貫したAPI呼び出しシーケンスを通じて検出可能な行動的シグネチャを保持していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。