QUICK REVIEW

[論文レビュー] Deep Neural Network Based Malware Detection Using Two Dimensional Binary Program Features

Joshua Saxe, Konstantin Berlin|arXiv (Cornell University)|Aug 13, 2015

Advanced Malware Detection Techniques参考文献 24被引用数 65

ひとこと要約

この論文では、手動でのフィルタリングやアンパッキングを必要とせず、2次元のバイナリ特徴量——具体的には1024バイトのスライディングウィンドウを用いてバイトエントロピー度数分布を計算する——に基づく深層ニューラルネットワーク（DNN）を用いたマルウェア検出システムを提案する。40万件を超える実世界のバイナリに対して、0.1%の偽陽性率で95%の検出率を達成しており、コンsumerハードウェアでも高い精度と低い偽陽性率を実現しており、ライブでのエンタープライズ環境への導入も成功している。

ABSTRACT

Malware remains a serious problem for corporations, government agencies, and individuals, as attackers continue to use it as a tool to effect frequent and costly network intrusions. Machine learning holds the promise of automating the work required to detect newly discovered malware families, and could potentially learn generalizations about malware and benign software that support the detection of entirely new, unknown malware families. Unfortunately, few proposed machine learning based malware detection methods have achieved the low false positive rates required to deliver deployable detectors. In this paper we a deep neural network malware classifier that achieves a usable detection rate at an extremely low false positive rate and scales to real world training example volumes on commodity hardware. Specifically, we show that our system achieves a 95% detection rate at 0.1% false positive rate (FPR), based on more than 400,000 software binaries sourced directly from our customers and internal malware databases. We achieve these results by directly learning on all binaries, without any filtering, unpacking, or manually separating binary files into categories. Further, we confirm our false positive rates directly on a live stream of files coming in from Invincea's deployed endpoint solution, provide an estimate of how many new binary files we expected to see a day on an enterprise network, and describe how that relates to the false positive rate and translates into an intuitive threat score. Our results demonstrate that it is now feasible to quickly train and deploy a low resource, highly accurate machine learning classification model, with false positive rates that approach traditional labor intensive signature based methods, while also detecting previously unseen malware.

研究の動機と目的

高い検出率と最小限の偽陽性率を達成する、スケーラブルでリソース消費が少ないマルウェア検出システムの開発。
パッケージャーの種別によるフィルタリングやアンパッキングなどの手動前処理の必要性を排除すること。
ライブファイルストリームを扱うリアルタイムのエンタープライズ環境での機械学習モデルの導入を可能にすること。
顧客エンドポイントからのライブトラフィックを含む実世界データを用いたモデル性能の検証。
ディープラーニングが従来の署名ベース手法と同等またはそれを上回る精度で、未観測のマルウェアファミリーを検出できることの実証。

提案手法

1024バイトのウィンドウをバイナリ上にスライドさせ、256バイトのステップサイズでスライドすることで、2次元のバイトエントロピー度数分布を抽出する。
各ウィンドウに対して2を底とするエントロピーとバイト頻度を計算し、エントロピー（0–8）とバイト値（0–255）の組み合わせに対して16×16の度数分布を作成する。
度数分布の各行を連結して、固定長の特徴ベクトルを作成し、2層の隠れ層を持つ深層ニューラルネットワークの入力として使用する。
パッケージャー、オブスクリューション、その他のバイナリ特性による事前分離を一切行わず、生のバイナリ上で深層ニューラルネットワーク分類器を学習する。
生のニューラルネットワーク出力を解釈可能な脅威スコア（マルウェア発生確率に近い値）に変換するため、ベイズ補正を適用する。
インクリメンタル学習とコンactなモデル重みを用いることで、低スペックハードウェアでもリアルタイムでの導入と効率的な推論を可能にする。

実験結果

リサーチクエスチョン

RQ1生のバイナリ上で直接学習させたディープニューラルネットワークは、高い検出精度と低い偽陽性率を達成できるか？
RQ2スライディングウィンドウから得られる2次元バイナリ特徴量は、手動による特徴工学を伴わずにマルウェア検出に有用なパターンを捉えられるか？
RQ3エンタープライズエンドポイントからの実世界のラベルなしファイルストリーム上で、モデルはどの程度の性能を示すか？
RQ4コンsumerハードウェア上で大規模な学習を実行しながらも、低い偽陽性率を維持できるか？
RQ5再学習なしで、未観測のマルウェアファミリーに対してどの程度一般化できるか？

主な発見

40万件を超える実世界のソフトウェアバイナリ（顧客および社内マルウェアデータベースより収集）に対して、0.1%の偽陽性率で95%の検出率を達成した。
偽陽性率は、インヴィンシアの展開済みエンドポイントソリューションからのライブファイルストリームを直接用いて検証され、実世界での信頼性が裏付けられた。
モデルは単一のGPUのみを用いて学習および展開されたことから、コンsumerハードウェア上でのスケーラビリティが実証された。
アンパッキングやパッケージャー種別によるフィルタリングなどの手動前処理が一切不要であり、全バイナリに対して直接学習可能である。
本システムはインヴィンシアのクラウドセキュリティアナリティクスプラットフォームに正常に統合され、数千の顧客エンドポイントでマルウェア検出に活用されている。
ベイズ補正を施した脅威スコアは、マルウェア発生確率に類似した直感的な解釈を可能にし、運用上の使いやすさを向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。