[論文レビュー] Predicting Domain Generation Algorithms with Long Short-Term Memory Networks
本論文は、特徴量なしのLSTMベース分類器を提案し、リアルタイム(ドメインごとに)DGA生成ドメインを検出し、マルウェアファミリ別にドメインを分類でき、文脈データなしで最先端のAUCとF1スコアを達成し、再現性のあるオープンソースコードも提供する。
Various families of malware use domain generation algorithms (DGAs) to generate a large number of pseudo-random domain names to connect to a command and control (C&C) server. In order to block DGA C&C traffic, security organizations must first discover the algorithm by reverse engineering malware samples, then generating a list of domains for a given seed. The domains are then either preregistered or published in a DNS blacklist. This process is not only tedious, but can be readily circumvented by malware authors using a large number of seeds in algorithms with multivariate recurrence properties (e.g., banjori) or by using a dynamic list of seeds (e.g., bedep). Another technique to stop malware from using DGAs is to intercept DNS queries on a network and predict whether domains are DGA generated. Such a technique will alert network administrators to the presence of malware on their networks. In addition, if the predictor can also accurately predict the family of DGAs, then network administrators can also be alerted to the type of malware that is on their networks. This paper presents a DGA classifier that leverages long short-term memory (LSTM) networks to predict DGAs and their respective families without the need for a priori feature extraction. Results are significantly better than state-of-the-art techniques, providing 0.9993 area under the receiver operating characteristic curve for binary classification and a micro-averaged F1 score of 0.9906. In other terms, the LSTM technique can provide a 90% detection rate with a 1:10000 false positive (FP) rate---a twenty times FP improvement over comparable methods. Experiments in this paper are run on open datasets and code snippets are provided to reproduce the results.
研究の動機と目的
- リアルタイムDGA検出を、文脈データや手動特徴量なしで行う必要性を動機づける。
- LSTMネットワークを用いたドメインごとのDGA分類器を提案する。
- 複数のDGAファミリに対して回顧的およびリアルタイムのベースラインと比較評価する。
- 手法がマルウェアファミリによる多クラス分類をサポートすることを示し、再現可能なコードを提供する。
提案手法
- ドメイン名の文字レベルパターンを学習するために、埋め込み層の後にLSTMを適用する。
- LSTM層の後にドロップアウトを適用し、2クラス出力にはロジスティック分類器、マルチクラス出力には多項ロジスティック回帰を使用する。
- BenignとしてAlexaトップ1Mドメイン、DGAとしてBambenek OSINT DGAフィードを用いたオープンデータセットで訓練・評価する。
- LSTMを、HMM、バイグラムのロジスティック回帰、および手動特徴量を用いたランダムフォレストと比較する。
- 再現を可能にするオープンソースのPython/Keras実装を提供する。
実験結果
リサーチクエスチョン
- RQ1文脈情報なしで、ドメインごとのDGA分類器はDGAドメインを検出できるか?
- RQ2LSTMベースのモデルは、実時間DGA検出のための特徴量ベースおよび回顧的アプローチを上回ることができるか?
- RQ3このアプローチは特定のDGAファミリにドメインを割り当てる多クラス分類を実行可能か?
- RQ4現実的なオープンデータセットで達成可能な性能指標(AUC、F1、精度、再現率)は何か?
主な発見
- LSTMは二値分類でAUC 0.9993を達成し、他の手法より優れている。
- LSTMはマイクロ平均F1 0.9906を示し、以前の手法よりもはるかに低い偽陽性率(例:1:10000)を達成。
- 30のDGAファミリにわたって高い精度で多クラス分類を実行できる。
- 商用ハードウェア上でのドメインの分類は約20 ms。
- コードと実験は、オープンデータセットとKeras実装を用いて再現可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。