Skip to main content
QUICK REVIEW

[논문 리뷰] One Train for Two Tasks: An Encrypted Traffic Classification Framework Using Supervised Contrastive Learning

Haozhen Zhang, Xi Xiao|arXiv (Cornell University)|2024. 02. 12.
Internet Traffic Analysis and Secure E-voting인용 수 5
한 줄 요약

CLE-TFE는 패킷 수준과 흐름 수준의 암호화 트래픽 분류를 감독적 대조 학습과 교차 수준 다중 작업 학습을 사용해 통합적으로 수행하는 모델로, 기존 사전 학습 모델 대비 더 낮은 오버헤드로 우수한 성능을 달성합니다.

ABSTRACT

As network security receives widespread attention, encrypted traffic classification has become the current research focus. However, existing methods conduct traffic classification without sufficiently considering the common characteristics between data samples, leading to suboptimal performance. Moreover, they train the packet-level and flow-level classification tasks independently, which is redundant because the packet representations learned in the packet-level task can be exploited by the flow-level task. Therefore, in this paper, we propose an effective model named a Contrastive Learning Enhanced Temporal Fusion Encoder (CLE-TFE). In particular, we utilize supervised contrastive learning to enhance the packet-level and flow-level representations and perform graph data augmentation on the byte-level traffic graph so that the fine-grained semantic-invariant characteristics between bytes can be captured through contrastive learning. We also propose cross-level multi-task learning, which simultaneously accomplishes the packet-level and flow-level classification tasks in the same model with one training. Further experiments show that CLE-TFE achieves the best overall performance on the two tasks, while its computational overhead (i.e., floating point operations, FLOPs) is only about 1/14 of the pre-trained model (e.g., ET-BERT). We release the code at https://github.com/ViktorAxelsen/CLE-TFE

연구 동기 및 목표

  • 암호화 트래픽 샘플 간의 공통적이고 레이블 정보를 반영한 특징을 식별하여 표현의 강건성을 향상시킨다.
  • 패킷 수준과 흐름 수준 분류를 하나의 모델에서 공동으로 학습시켜 중복 학습을 줄인다.
  • 바이트 수준 트래픽 그래프의 그래프 기반 증강을 활용해 미세하게 의미 불변 정보를 포착한다.
  • 교차 수준의 감독 대조 학습이 패킷- 및 흐름 수준 작업 모두를 향상시킴을 입증한다.
  • ISCX VPN/비VPN 및 Tor/비Tor 데이터셋에서 현대적 흐름 수준 및 패킷 수준 기준선들과의 효율성과 성능을 평가한다.

제안 방법

  • 감대 학습 모듈과 교차 수준 다중 작업 학습 모듈을 추가하여 Temporal Fusion Encoder (TFE-GNN) 위에 CLE-TFE를 구축한다.
  • 패킷 수준 대조 학습을 위해 바이트 수준 트래픽 그래프에 노드 및 간선 삭제와 같은 그래프 데이터 증강을 적용한다.
  • 플로우 수준 대조 학습을 위해 흐름 내 패킷을 무작위로 삭제하는 증강을 사용한다.
  • 같은 라벨의 샘플들을 패킷- 및 흐름 수준 표현들에 결합시키기 위해 지도 대조 손실을 활용한다.
  • 한 모델 내에서 패킷 수준과 흐름 수준 분류 헤드를 동시에 학습시켜 교차 수준 관계를 활용한다.
  • L = L_PCLS + L_FCLS + α L_PCL + β L_FCL 형태의 결합 손실로 최적화하며, α, β는 대조 항의 기여도를 조정한다.

실험 결과

연구 질문

  • RQ1RQ1: CLE-TFE가 패킷 수준 및 흐름 수준 암호화 트래픽 분류 작업에서 어떤 성능을 보이는가?
  • RQ2RQ2: CLE-TFE의 각 모듈이 전체 성능에 얼마나 기여하는가(결과 분석)?
  • RQ3RQ3: 내린 임베딩 공간에서 패킷 및 흐름 수준 표현의 구분 능력이 얼마나 강한가?
  • RQ4RQ4: 벤치마크 대비 CLE-TFE의 계산 비용은 어느 정도인가?
  • RQ5RQ5: CLE-TFE는 하이퍼파라미터에 얼마나 민감한가?

주요 결과

모델VPN_ACVPN_PRVPN_RCVPN_F1NonVPN_ACNonVPN_PRNonVPN_RCNonVPN_F1Tor_ACTor_PRTor_RCTor_F1NonTor_ACNonTor_PRNonTor_RCNonTor_F1
CLE-TFE0.98130.97710.97620.97610.92860.93960.93910.93891.00001.00001.00001.00000.95540.90090.90190.8994
TFE-GNN0.93900.87420.83350.85070.?,0.?,0.?,0.?,0.?,0.?,0.?,0.?,0.?,0.?
ET-BERT0.90290.85600.82170.83320.90290.85600.82170.83320.90290.85600.82170.83320.90290.85600.82170.8332
  • CLE-TFE는 ISCX VPN-비VPN 및 Tor-비Tor 데이터셋 전반에서 패킷 수준 및 흐름 수준 작업 모두에서 최상의 종합 성능을 달성한다.
  • TFE-GNN과 비교했을 때 CLE-TFE는 성능을 향상시키면서도 FLOPs를 거의 절반으로 줄인다(ISCX-VPN에서 2.4%, ISCX-비Tor에서 5.7% 증가).
  • 패킷- 및 흐름 수준의 지도 대조 학습과 교차 수준 학습은 절단된 변형(ablation)보다 두 작업의 성능을 크게 향상시킨다.
  • 흐름 수준 분류에서 CLE-TFE는 전통적 방법을 크게 능가하고 ET-BERT와 같은 딥러닝 기반 벤치마크와 경쟁력 있거나 우수하며 계산 오버헤드가 낮다.
  • 특정 구성 요소를 제거한 ablation 연구에서도 패킷 수준 또는 흐름 수준 대조 손실이나 각각의 분류 손실 중 하나를 제거하면 성능이 저하되어, 대조 신호와 지도 신호 모두의 이점이 확인된다.
  • CLE-TFE는 증강에 대한 강건성을 보이며, 패킷 수준의 헤더/페이로드 그래프 증강이 F1 점수를 높이고, 흐름 수준의 패킷 드롭은 표현의 안정화를 더한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.