Skip to main content
QUICK REVIEW

[論文レビュー] One Train for Two Tasks: An Encrypted Traffic Classification Framework Using Supervised Contrastive Learning

Haozhen Zhang, Xi Xiao|arXiv (Cornell University)|Feb 12, 2024
Internet Traffic Analysis and Secure E-voting被引用数 5
ひとこと要約

CLE-TFE は、監督付き対比学習と横断レベルのマルチタスク訓練を用いて、パケットレベルとフローレベルの暗号化トラフィック分類を統合的に実行するモデルで、以前の事前学習モデルよりオーバーヘッドを抑えつつ性能が優れている。

ABSTRACT

As network security receives widespread attention, encrypted traffic classification has become the current research focus. However, existing methods conduct traffic classification without sufficiently considering the common characteristics between data samples, leading to suboptimal performance. Moreover, they train the packet-level and flow-level classification tasks independently, which is redundant because the packet representations learned in the packet-level task can be exploited by the flow-level task. Therefore, in this paper, we propose an effective model named a Contrastive Learning Enhanced Temporal Fusion Encoder (CLE-TFE). In particular, we utilize supervised contrastive learning to enhance the packet-level and flow-level representations and perform graph data augmentation on the byte-level traffic graph so that the fine-grained semantic-invariant characteristics between bytes can be captured through contrastive learning. We also propose cross-level multi-task learning, which simultaneously accomplishes the packet-level and flow-level classification tasks in the same model with one training. Further experiments show that CLE-TFE achieves the best overall performance on the two tasks, while its computational overhead (i.e., floating point operations, FLOPs) is only about 1/14 of the pre-trained model (e.g., ET-BERT). We release the code at https://github.com/ViktorAxelsen/CLE-TFE

研究の動機と目的

  • 暗号化トラフィックサンプル全体で、表現の頑健性を向上させる共通かつラベル情報を含む特徴を特定する。
  • 冗長な学習を削減するため、パケットレベルとフローレベルの分類を共同で学習できる単一モデルを開発する。
  • バイトレベルのトラフィックグラフのグラフベースの拡張を活用して、細かな意味論的不変情報を捉える。
  • 横断レベルの監督付き対比学習がパケットレベルとフローレベルの双方のタスクを改善することを示す。
  • ISCX VPN/非VPN および Tor/非Tor データセットにおいて、最新のフロー レベルとパケットレベルのベースラインと比較して、効率と性能を評価する。

提案手法

  • 対比学習モジュールと横断レベルのマルチタスク学習モジュールを追加して、Temporal Fusion Encoder (TFE-GNN) 上に CLE-TFE を構築する。
  • パケットレベルの対比学習のために、バイトレベルのトラフィックグラフにノード・エッジ削除などのグラフデータ拡張を適用する。
  • フロー内のパケットをランダムに削除することでフロー レベルの拡張を行い、フロー レベルの対比学習を行う。
  • 同じラベルを持つサンプルをパケットレベルとフロー レベルの表現で結びつけるために、監督付き対比損失を用いる。
  • 同じモデル内でパケットレベルとフロー レベルの分類ヘッドを同時に訓練し、横断レベルの関係を活用する(1 回の訓練)。
  • 結合損失で最適化する: L = L_PCLS + L_FCLS + α L_PCL + β L_FCL, ここで α, β は対比項の寄与を調整する。

実験結果

リサーチクエスチョン

  • RQ1RQ1: CLE-TFE はパケットレベルおよびフロー レベルの暗号化トラフィック分類タスクでどのように性能を発揮しますか?
  • RQ2RQ2: 各 CLE-TFE モジュールは全体の性能にどれだけ寄与しますか(アブレーション分析)?
  • RQ3RQ3: 埋め込み空間における学習済みのパケットレベルおよびフロー レベル表現はどれだけ識別的ですか?
  • RQ4RQ4: 従来手法と比較したとき、CLE-TFE の計算コストはどれくらいですか?
  • RQ5RQ5: CLE-TFE はハイパーパラメータにどれだけ敏感ですか?

主な発見

モデルVPN_ACCVPN_PRVPN_RCVPN_F1非VPN_ACC非VPN_PR非VPN_RC非VPN_F1Tor_ACCTor_PRTor_RCTor_F1NonTor_ACCNonTor_PRNonTor_RCNonTor_F1
CLE-TFE0.98130.97710.97620.97610.92860.93960.93910.93891.00001.00001.00001.00000.95540.90090.90190.8994
TFE-GNN0.93900.87420.83350.85070.?,0.?,0.?,0.?,0.?,0.?,0.?,0.?,0.?,0.?
ET-BERT0.90290.85600.82170.83320.90290.85600.82170.83320.90290.85600.82170.83320.90290.85600.82170.8332
  • CLE-TFE は ISCX VPN-非 VPN および Tor-非 Tor データセットの両方において、パケットレベルとフロー レベルのタスクで全体的に最良の結果を達成した。
  • TFE-GNN と比較して、CLE-TFE は性能を向上させ(ISCX-VPN で 2.4%、ISCX-nonTor で 5.7%)、FLOPsをほぼ半分に削減した。
  • パケットレベルおよびフロー レベルの監督付き対比学習と横断レベルの訓練を組み合わせることで、アブレーション版より両タスクの性能が著しく改善された。
  • フロー レベルの分類では、CLE-TFE が伝統的手法を大幅に上回り、ET-BERT などの深層学習ベースラインと同等または優位でありながら、計算負荷を低く抑える。
  • アブレーション研究では、パケットレベルまたはフロー レベルの対比損失のいずれか、あるいはそれぞれの分類損失を除くと性能が低下することが示され、対比と監督信号の双方の利益が確認された。
  • CLE-TFE は拡張に対して頑健であり、パケットレベルのヘッダ/ペイロードのグラフ拡張が F1 スコアの向上に寄与し、フロー レベルのパケット削除が表現をさらに安定化させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。