QUICK REVIEW

[論文レビュー] Machine Learning in Cyber-Security - Problems, Challenges and Data Sets

Idan Amit, John Matherly|arXiv (Cornell University)|Dec 19, 2018

Network Security and Intrusion Detection参考文献 31被引用数 37

ひとこと要約

本論文は、マルウェア分類、ホスト類似性、横向き移動、ステルスポートスキャンといった新しいサイバー・セキュリティ問題を提示するとともに、革新的な機械学習の課題と公開済みのデータセットを提供する。本研究では、オペレータドメインをピボットとして用いるラベリング手法を提案し、コンテンツに依存しない高品質なラベルを生成することで、セキュリティ応用における機械学習モデルの強固な訓練と評価を可能にする。

ABSTRACT

We present cyber-security problems of high importance. We show that in order to solve these cyber-security problems, one must cope with certain machine learning challenges. We provide novel data sets representing the problems in order to enable the academic community to investigate the problems and suggest methods to cope with the challenges. We also present a method to generate labels via pivoting, providing a solution to common problems of lack of labels in cyber-security.

研究の動機と目的

サイバー・セキュリティ機械学習における不十分でノイジーなラベルの深刻な課題に対処するため、新しいラベリング手法を導入すること。
マルウェア分類、ホスト類似性、横向き移動検出、ステルスポートスキャンの4つの高影響度のサイバー・セキュリティ問題を提示すること。
各問題用に新規で公開可能なデータセットを提供し、再現可能な研究とモデル開発を可能にすること。
オペレータドメインのピボットを用いたコンテンツに依存しないラベリングを実現し、人的専門家によるラベリングやシグネチャベースの手法への依存を低減すること。
多様なネットワーク環境および時間帯からのデータを公開することで、ドメイン適応とコンセプトドリフトに関する研究を促進すること。

提案手法

オペレータドメインピボットを用いる：2つのマルウェアが同じ悪意あるドメインのセットと通信している場合、それらは同一のオペレータに属するものとラベル付けされる。
マルウェア $m$ に関連するユニークなドメインを抽出する関数 $OperatorDomains(m)$ を定義する。ただし、健全なドメインや一般的に使用されるドメインは除外する。
2つのホストが、マルウェアのサンプルが共有するドメインをホスティングしている同じIPに解決する場合、それらのホストペアは類似しているとラベル付けされる。$resolve(ip)$ および $signature(ip)$ 関数を用いる。
同じオペレータドメインを共有するマルウェアから正例ペアを構築し、それらをホストシグネチャにマッピングすることで、ラベル付きのホスト類似性ペアを生成する。
非一致するホストシグネチャのカルテジアン積を用いて負例を生成し、データセットのバランスを取る。
接続ペアの特徴（タイミング、ポート使用状況、通信量など）を用いて、ノイズフィルタリングと時間的制約を適用し、バインドシェル攻撃ペアを同定する。

実験結果

リサーチクエスチョン

RQ1手動分析やシグネチャベースの手法に依存せずに、信頼性がありスケーラブルでコンテンツに依存しないラベルを、マルウェアおよびネットワークホストに対してどのように生成できるか？
RQ2直接的なマルウェア通信が観測されない状況でも、サービスシグネチャに基づくホスト類似性は、悪意あるインfraストラクチャを同定するのにどの程度有効か？
RQ3大規模なネットワークトラフィックにおいて、通常のネットワーク行動と横向き移動経路を区別するのに最適な特徴は何か？
RQ4オペレータドメインのピボットは、マルウェア分類モデルの一般化性能とロバストネスを向上させるのにどの程度有効か？
RQ5ステルスポートスキャンおよびバインドシェル攻撃の主な特徴は何か？それらはネットワークセッションデータにどのように記録され、検出可能か？

主な発見

提示されたオペレータドメインピボット手法により、マルウェアおよびホスト向けに大規模かつコンテンツに依存しないラベルが生成可能となり、人的専門家によるラベリングへの依存が顕著に低減された。
バインドシェルデータセットには、ポート使用状況、タイミング、通信量といった特徴を備えた1,000組以上のラベル付き接続ペアが含まれており、フォワードシェルパターンの検出が可能である。
ネットワークトラフィックデータセットは、複数のサイトおよび時間帯にわたり収集されており、実運用におけるドメイン適応およびコンセプトドリフトの課題を提示している。
共有される悪意あるドメインから導出されるサービスシグネチャを用いることで、ホスト類似性が効果的にモデル化され、関連する悪意あるホストの検出が可能になった。
データセットは、ペアを特定のオペレータドメインに割り当てることで、二値ラベルを超えた細粒度の分析を可能にするマルチクラス分類をサポートしている。
ラベリングパイプラインは、ネットワーク行動分析とプロトコルレベルの特徴工学を組み合わせることで、高品質な正例および負例を生成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。