[논문 리뷰] Nethira: A Heterogeneity-aware Hierarchical Pre-trained Model for Network Traffic Classification
Nethira는 네트워크 트래픽 분류를 위한 이질성 인식 계층적 사전 학습 모델을 도입하고, 다단 재구성 및 일관성 정규화 미세 조정을 통해 제한된 라벨 데이터에서도 성능을 발휘합니다.
Network traffic classification is vital for network security and management. The pre-training technology has shown promise by learning general traffic representations from raw byte sequences, thereby reducing reliance on labeled data. However, existing pre-trained models struggle with the gap between traffic heterogeneity (i.e., hierarchical traffic structures) and input homogeneity (i.e., flattened byte sequences). To address this gap, we propose Nethira, a heterogeneity-aware pre-trained model based on hierarchical reconstruction and augmentation. In pre-training, Nethira introduces hierarchical reconstruction at multiple levels-byte, protocol, and packet-capturing comprehensive traffic structural information. During fine-tuning, Nethira proposes a consistency-regularized strategy with hierarchical traffic augmentation to reduce label dependence. Experiments on four public datasets demonstrate that Nethira outperforms seven existing pre-trained models, achieving an average F1-score improvement of 9.11%, and reaching comparable performance with only 1% labeled data on high-heterogeneity network tasks.
연구 동기 및 목표
- 트래픽 이질성에도 불구하고 입력 형식이 동질한 상태에서 네트워크 트래픽 분류를 개선하려는 동기 부여.
- 바이트, 프로토콜, 패킷의 계층적 트래픽 구조를 포착하는 사전 학습 과제 개발.
- 계층적 증강 및 일관성 정규화를 통한 미세 조정 전략 제안.
- 계층적 사전 학습과 증강이 데이터 세트 및 데이터-레이블 제약 하에서 우수한 성능을 낳는다는 것을 입증.
제안 방법
- 원시 트래픽을 모델 입력으로 사용하기 위해 평평한 바이트 시퀀스로 변환합니다.
- 바이트, 프로토콜, 패킷 수준에서 계층적 재구성을 사전 학습 중 Transformer 인코더-디코더를 사용하여 수행합니다.
- 바이트 수준, 프로토콜 수준, 패킷 수준의 세 가지 재구성 손실을 사용하여 표현 학습을 안내합니다 (L_byte, L_protocol, L_packet).
- 사전 학습 목표 L_P는 세 가지 재구성 손실의 합입니다 (L_byte + L_protocol + L_packet).
- 일관성 정규화된 다중 수준 트래픽 증강(프로토콜 수준 및 패킷 수준)을 사용하여 이질적 입력에서 안정적인 예측을 보장하도록 미세 조정합니다 (L_sup + lambda * L_cons).
실험 결과
연구 질문
- RQ1계층적 재구성이 평면화된 바이트 표현을 넘는 트래픽 이질성을 포착할 수 있는가?
- RQ2일관성 정규화를 갖춘 계층적 증강이 이질적 트래픽 작업에서 일반화 성능을 향상시키는가?
- RQ3다수의 공용 데이터셋에서 기존의 사전 학습 모델에 비해 Nethira의 성능은 어떠한가?
- RQ4제한된 라벨 데이터(예: 1%–10%)를 사용할 때 데이터 효율성 향상은 어느 정도인가?
주요 결과
| 방법 | ISCX-VPN(App) PR | ISCX-VPN(App) RC | ISCX-VPN(App) F1 | ISCX-VPN(Service) PR | ISCX-VPN(Service) RC | ISCX-VPN(Service) F1 | USTC-TFC PR | USTC-TFC RC | USTC-TFC F1 | CIC-IoT PR | CIC-IoT RC | CIC-IoT F1 | 평균 F1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| FlowPrint | 59.04 | 43.04 | 44.94 | 70.21 | 66.62 | 64.51 | 69.76 | 70.16 | 68.81 | 14.73 | 20.46 | 15.70 | 48.49 |
| AppScanner | 72.89 | 53.61 | 58.03 | 85.99 | 75.67 | 79.13 | 75.58 | 57.72 | 62.77 | 35.27 | 23.86 | 25.45 | 56.35 |
| FS-Net | 49.90 | 39.96 | 40.60 | 71.61 | 63.63 | 64.18 | 90.74 | 89.66 | 89.39 | 37.24 | 35.39 | 32.61 | 56.70 |
| EBSNN | 66.07 | 61.53 | 62.05 | 89.84 | 89.69 | 89.53 | 93.48 | 91.29 | 90.10 | 88.92 | 87.29 | 85.37 | 81.76 |
| TFE-GNN | 67.20 | 60.60 | 61.80 | 85.97 | 80.95 | 82.14 | 95.91 | 95.68 | 95.63 | 67.05 | 66.90 | 64.29 | 75.97 |
| NetMamba | 67.17 | 58.05 | 60.32 | 86.01 | 78.31 | 80.27 | 95.85 | 94.90 | 94.83 | 68.18 | 70.39 | 67.55 | 75.74 |
| YaTC | 70.03 | 58.73 | 62.33 | 81.06 | 78.37 | 78.06 | 95.77 | 94.96 | 94.87 | 74.28 | 75.07 | 72.36 | 76.91 |
| PERT | 72.16 | 70.26 | 70.80 | 91.42 | 90.43 | 90.86 | 93.24 | 93.00 | 92.95 | 89.58 | 89.47 | 88.23 | 85.71 |
| NetGPT | 69.86 | 71.48 | 69.40 | 91.94 | 92.20 | 91.92 | 96.16 | 95.98 | 96.00 | 90.48 | 90.19 | 89.08 | 86.60 |
| ET-BERT | 72.00 | 70.36 | 70.94 | 91.40 | 91.58 | 91.47 | 95.21 | 95.20 | 95.18 | 91.29 | 89.93 | 88.91 | 86.63 |
| TraGe | 71.38 | 71.10 | 70.93 | 91.75 | 91.72 | 91.68 | 95.94 | 95.90 | 95.91 | 89.02 | 90.04 | 88.61 | 86.78 |
| TrafficFormer | 72.32 | 71.56 | 71.69 | 92.15 | 91.94 | 91.97 | 95.17 | 94.98 | 95.01 | 91.25 | 90.10 | 89.12 | 86.95 |
| Nethira | 77.33 | 74.58 | 75.55 | 92.35 | 92.44 | 92.34 | 96.62 | 96.42 | 96.40 | 97.26 | 97.40 | 97.29 | 90.40 |
- Nethira는 평균 F1이 9.11% 포인트 향상되며 7개의 사전 학습 기준 모델을 능가합니다.
- 네 데이터세트에서 Nethira는 Baselines 대비 App에서 11.49%, Service에서 5.36%, USTC-TFC에서 1.52%, CIC-IoT에서 18.05%의 F1을 더 달성합니다.
- 단 1%의 라벨 데이터로도 Nethira는 CIC-IoT F1 0.9452를 달성하며, 전체 라벨로 학습된 일부 모델과 동등하거나 더 우수합니다.
- 계층적 재구성 없이 사전 학습은 성능을 4.78% 포인트 감소시키고, L_byte만 사용하는 경우 1.71% 감소하며, 증강 없이 미세 조정하면 7.84% 감소합니다.
- 제약된 라벨 하에서 CIC-IoT 데이터셋은 패킷 수준 이질성이 높아 강력한 이득을 보이며(ANPF 관련 효과).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.