QUICK REVIEW

[論文レビュー] A multi-task learning model for malware classification with useful file access pattern from API call sequence

Xin Wang, Siu Ming Yiu|arXiv (Cornell University)|Oct 19, 2016

Advanced Malware Detection Techniques参考文献 12被引用数 28

ひとこと要約

本論文では、共有されたRNNベースのオートエンコーダーを用いて、生のAPIコールシーケンスからマルウェア分類とファイルアクセスパターン（FAP）生成を同時に実行するマルチタスク深層学習モデルを提案する。モデルは教師なし表現学習と2つのデコーダー（分類用と解釈可能なFAP生成用）を活用し、競争力ある分類精度（最大99.9%）と高品質なFAP生成を達成し、手動での特徴工学を必要とせずにモデルの解釈性を向上させている。

ABSTRACT

Based on API call sequences, semantic-aware and machine learning (ML) based malware classifiers can be built for malware detection or classification. Previous works concentrate on crafting and extracting various features from malware binaries, disassembled binaries or API calls via static or dynamic analysis and resorting to ML to build classifiers. However, they tend to involve too much feature engineering and fail to provide interpretability. We solve these two problems with the recent advances in deep learning: 1) RNN-based autoencoders (RNN-AEs) can automatically learn low-dimensional representation of a malware from its raw API call sequence. 2) Multiple decoders can be trained under different supervisions to give more information, other than the class or family label of a malware. Inspired by the works of document classification and automatic sentence summarization, each API call sequence can be regarded as a sentence. In this paper, we make the first attempt to build a multi-task malware learning model based on API call sequences. The model consists of two decoders, one for malware classification and one for $\emph{file access pattern}$ (FAP) generation given the API call sequence of a malware. We base our model on the general seq2seq framework. Experiments show that our model can give competitive classification results as well as insightful FAP information.

研究の動機と目的

マルウェアの悪意ある行動を説明しない家族ラベルのみを出力する従来のマルウェア分類器における解釈性の欠如に対処する。
既存のマルウェア検出システムにおける手動特徴工学の制限を克服し、生のAPIコールシーケンスからのエンドツーエンドで自動化された表現学習を可能にする。
共有された潜在表現を用いてマルウェア分類器とファイルアクセスパターン（FAP）生成器を同時に学習させることで、モデルの頑健性と一般化性能を向上させる。
パッケージングやオブスクリューションに対処できる行動記述的FAPを生成することで、ゼロデイマルウェアの検出と類似したマルウェアファミリーの区別を可能にする。

提案手法

生のAPIコールシーケンスの低次元で教師なしの表現を学習するため、RNNベースのオートエンコーダー（RNN-AE）を採用する。
2つのデコーダー（マルウェアファミリー分類用とファイルアクセス行動の自然言語的記述（FAP）生成用）を備えたマルチタスクseq2seqフレームワークを設計する。
RNN-AEからの共有符号化表現を活用し、分類とFAP生成の両方のタスクに対して教師信号を用いてエンドツーエンドでモデルを学習する。
FAPの教師信号を、ヒューリスティックなルールベース手法を用いてAPIコールシーケンスから自動的にファイルアクセスパターンを抽出することで、学習ラベルを生成する。
シーケンス・トゥ・シーケンスモデリングを用いてFAPをテキストシーケンスとして生成し、各APIコールシーケンスを自然言語に類似した「文」として扱う。
実世界のマルウェアデータセットを用いて、分類の細分化とFAP生成性能の両面でモデルを評価し、アーキテクチャの複数のバリエーションを比較する。

実験結果

リサーチクエスチョン

RQ1生のAPIコールシーケンスから学習した共有表現は、マルウェア分類と解釈可能なファイルアクセスパターン（FAP）生成の両方を効果的にサポートできるか？
RQ2分類とFAP生成を同時に学習させることで、単一タスクモデルと比較してモデルの解釈性がどのように向上するか？
RQ3RNN-AEによる教師なし表現学習は、マルウェア分類における手動特徴工学の必要性をどの程度低減できるか？
RQ4モデルが生成するFAPは、パッケージングやオブスクリューションの影響を受ける場合でも、類似したAPIコールシーケンスを持つマルウェアファミリーを区別するのを支援できるか？
RQ5事前に定義されたラベルに依存せず、FAPに依存する場合、ゼロデイまたは未確認のマルウェアファミリーに対してモデルはどの程度の性能を示すか？

主な発見

提案されたマルチタスクモデルは、テスト分類精度が99.2%、FAP生成精度が99.3%を達成し、両タスクにおいて優れた性能を示している。
モデルの教師なしRNN-AEエンコーダーは、APIコールシーケンスが非常に類似している場合でも、多様なマルウェアファミリーにわたって一般化しやすい強固な低次元表現を学習している。
細分化評価では、FAPがマルウェアの真のファミリーを高精度で特定するのに有効であることが示され、例としてnet-worm.win32.allapleとadware.win32.megasearchを高精度に同定できた。
モデルは、特定のファイルの作成や変更といったファイルシステム行動を記述する意味的で解釈可能なFAPを効果的に生成しており、ファミリーラベルを超えた実用的インサイトを提供している。
分類とFAP生成の両面で、単一タスクベースラインを上回る性能を示しており、マルウェア分析におけるマルチタスク学習の有効性を確認している。
潜在表現の可視化により、同じファミリーに属するマルウェアサンプルがクラスタを形成し、異なるファミリー同士は明確に分離されていることが確認され、学習済み埋め込みの質が裏付けられている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。