[論文レビュー] Using Side Channel Information and Artificial Intelligence for Malware Detection
本稿では、コードやネットワークトラフィックにアクセスせずに、実行中のマルウェアを検出できる、新規のマルウェア検出システムを提案する。CPU温度、ファン回転数、メモリ使用量といった側帯域ハードウェア信号と人工知能を組み合わせることで、コードやネットワークトラフィックにアクセスできないリソース制限環境やオフライン環境(エアギャップ環境)においても、有効な署名フリーなマルウェア検出が可能であることを示している。再帰ニューラルネットワーク(RNN)、特に双方向LSTMを用いた手法により、マルウェアの存在を分類する精度が90.91%に達した。これは、ハードウェアの側帯域データが、リソース制限やオフライン環境においても、効果的なマルウェア検出を可能にすることを示している。
Cybersecurity continues to be a difficult issue for society especially as the number of networked systems grows. Techniques to protect these systems range from rules-based to artificial intelligence-based intrusion detection systems and anti-virus tools. These systems rely upon the information contained in the network packets and download executables to function. Side channel information leaked from hardware has been shown to reveal secret information in systems such as encryption keys. This work demonstrates that side channel information can be used to detect malware running on a computing platform without access to the code involved.
研究の動機と目的
- コードやネットワークパケット分析を必要とせず、唯一側帯域ハードウェア信号に基づいてマルウェアを検出するプロトタイプシステムを開発すること。
- 人工知能モデルが、側帯域データに反映された低レベルのシステム動作から、マルウェアの存在を効果的に分類できることを実証すること。
- 今後のAI駆動の側帯域マルウェア検出研究を支援するため、マルウェア実行時の側帯域トレースを含む公開可能なデータセットを構築・公開すること。
- 特にRNNを含むさまざまなディープラーニングアーキテクチャが、長さの異なる側帯域シーケンスに対して、リアルタイム検出の観点からどの程度の性能を示すかを評価すること。
提案手法
- 既知のマルウェアサンプルを実行した制御されたシステムで、CPU温度、ファン回転数、メモリ使用量といった側帯域データを収集した。
- 時系列データとしての側帯域データを正規化し、シーケンスのサブサンプリングを適用することで、トレーニングデータの多様性を高めた。
- 複数のディープラーニングモデルを訓練した:マルチレイヤーパーセプトロン(MLP)、1次元畳み込みニューラルネットワーク(1D CNN)、およびLSTMやGRUを含むさまざまな再帰的ニューラルネットワーク(RNN)。
- 時間的文脈の理解を向上させるために、双方向RNNを採用し、短いおよび長いシーケンスの分類性能を向上させた。
- 標準的な指標(正確度、偽陽性率、偽陰性率)を用いて、さまざまなシーケンス長でのモデル性能を評価した。
- シーケンス長のサブサンプリングによるデータ拡張を適用することで、データセットのサイズを意図的に拡大し、モデルの汎化性能を向上させた。
実験結果
リサーチクエスチョン
- RQ1計算機のハードウェアから得られる側帯域信号を用いて、バイナリやネットワークトラフィックにアクセスせずに、実行中のマルウェアを検出できるか?
- RQ2長さの異なる側帯域データシーケンスに対して、さまざまなディープラーニングアーキテクチャがマルウェアの存在をどの程度効果的に分類できるか?
- RQ3短いリアルタイムの側帯域シーケンスを用いた場合、再帰的ニューラルネットワーク(RNN)が、フィードフォワード型や畳み込みモデルを上回る性能を示せるか?
- RQ4提案されたシステムは、さまざまなマルウェアタイプやシステム構成に対してどの程度一般化可能か?
- RQ5どの側帯域特徴が、正確なマルウェア検出に最も寄与しているか?また、特徴の重要度を用いて、次元削減が可能か?
主な発見
- 双方向LSTM RNNが、ファイルサンプルにおいて90.91%の最高精度を達成し、他のモデルよりもマルウェアの存在を効果的に検出できた。
- 再帰的モデル、特にLSTMは、非常に短いシーケンス(500ms)においても99.39%の精度を達成した。これは、リアルタイム検出に強い可能性を示している。
- 40ms以下のシーケンス長では、RNNが1D CNNを上回った。これは、RNNが微細な時間分解能と低遅延を要するマルウェア検出に適していることを示している。
- MLPモデルの平均マルウェア検出時間は54.33秒、CNNモデルは55.19秒であり、両者とも25秒の検出時間のしきい値以内に収まっており、実用的なリアルタイム性能を有していることが示された。
- 同じデータセットを用いて、1D CNNでは95.83%、MLPでは85.47%の精度を達成した。これは、ディープラーニングが側帯域データに対して効果的であることを確認している。
- 本研究で構築したデータセットには、多様な実行プロファイルを持つ16種類のマルウェアサンプルが含まれており、今後の側帯域マルウェア検出研究を支援するため、公開されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。