QUICK REVIEW

[논문 리뷰] Nethira: A Heterogeneity-aware Hierarchical Pre-trained Model for Network Traffic Classification

Chungang Lin, Weiyao Zhang|arXiv (Cornell University)|2026. 01. 30.

Internet Traffic Analysis and Secure E-voting인용 수 0

한 줄 요약

Nethira는 네트워크 트래픽 분류를 위한 이질성 인식 계층적 사전 학습 모델을 도입하고, 다단 재구성 및 일관성 정규화 미세 조정을 통해 제한된 라벨 데이터에서도 성능을 발휘합니다.

ABSTRACT

Network traffic classification is vital for network security and management. The pre-training technology has shown promise by learning general traffic representations from raw byte sequences, thereby reducing reliance on labeled data. However, existing pre-trained models struggle with the gap between traffic heterogeneity (i.e., hierarchical traffic structures) and input homogeneity (i.e., flattened byte sequences). To address this gap, we propose Nethira, a heterogeneity-aware pre-trained model based on hierarchical reconstruction and augmentation. In pre-training, Nethira introduces hierarchical reconstruction at multiple levels-byte, protocol, and packet-capturing comprehensive traffic structural information. During fine-tuning, Nethira proposes a consistency-regularized strategy with hierarchical traffic augmentation to reduce label dependence. Experiments on four public datasets demonstrate that Nethira outperforms seven existing pre-trained models, achieving an average F1-score improvement of 9.11%, and reaching comparable performance with only 1% labeled data on high-heterogeneity network tasks.

연구 동기 및 목표

트래픽 이질성에도 불구하고 입력 형식이 동질한 상태에서 네트워크 트래픽 분류를 개선하려는 동기 부여.
바이트, 프로토콜, 패킷의 계층적 트래픽 구조를 포착하는 사전 학습 과제 개발.
계층적 증강 및 일관성 정규화를 통한 미세 조정 전략 제안.
계층적 사전 학습과 증강이 데이터 세트 및 데이터-레이블 제약 하에서 우수한 성능을 낳는다는 것을 입증.

제안 방법

원시 트래픽을 모델 입력으로 사용하기 위해 평평한 바이트 시퀀스로 변환합니다.
바이트, 프로토콜, 패킷 수준에서 계층적 재구성을 사전 학습 중 Transformer 인코더-디코더를 사용하여 수행합니다.
바이트 수준, 프로토콜 수준, 패킷 수준의 세 가지 재구성 손실을 사용하여 표현 학습을 안내합니다 (L_byte, L_protocol, L_packet).
사전 학습 목표 L_P는 세 가지 재구성 손실의 합입니다 (L_byte + L_protocol + L_packet).
일관성 정규화된 다중 수준 트래픽 증강(프로토콜 수준 및 패킷 수준)을 사용하여 이질적 입력에서 안정적인 예측을 보장하도록 미세 조정합니다 (L_sup + lambda * L_cons).

실험 결과

연구 질문

RQ1계층적 재구성이 평면화된 바이트 표현을 넘는 트래픽 이질성을 포착할 수 있는가?
RQ2일관성 정규화를 갖춘 계층적 증강이 이질적 트래픽 작업에서 일반화 성능을 향상시키는가?
RQ3다수의 공용 데이터셋에서 기존의 사전 학습 모델에 비해 Nethira의 성능은 어떠한가?
RQ4제한된 라벨 데이터(예: 1%–10%)를 사용할 때 데이터 효율성 향상은 어느 정도인가?

주요 결과

방법	ISCX-VPN(App) PR	ISCX-VPN(App) RC	ISCX-VPN(App) F1	ISCX-VPN(Service) PR	ISCX-VPN(Service) RC	ISCX-VPN(Service) F1	USTC-TFC PR	USTC-TFC RC	USTC-TFC F1	CIC-IoT PR	CIC-IoT RC	CIC-IoT F1	평균 F1
FlowPrint	59.04	43.04	44.94	70.21	66.62	64.51	69.76	70.16	68.81	14.73	20.46	15.70	48.49
AppScanner	72.89	53.61	58.03	85.99	75.67	79.13	75.58	57.72	62.77	35.27	23.86	25.45	56.35
FS-Net	49.90	39.96	40.60	71.61	63.63	64.18	90.74	89.66	89.39	37.24	35.39	32.61	56.70
EBSNN	66.07	61.53	62.05	89.84	89.69	89.53	93.48	91.29	90.10	88.92	87.29	85.37	81.76
TFE-GNN	67.20	60.60	61.80	85.97	80.95	82.14	95.91	95.68	95.63	67.05	66.90	64.29	75.97
NetMamba	67.17	58.05	60.32	86.01	78.31	80.27	95.85	94.90	94.83	68.18	70.39	67.55	75.74
YaTC	70.03	58.73	62.33	81.06	78.37	78.06	95.77	94.96	94.87	74.28	75.07	72.36	76.91
PERT	72.16	70.26	70.80	91.42	90.43	90.86	93.24	93.00	92.95	89.58	89.47	88.23	85.71
NetGPT	69.86	71.48	69.40	91.94	92.20	91.92	96.16	95.98	96.00	90.48	90.19	89.08	86.60
ET-BERT	72.00	70.36	70.94	91.40	91.58	91.47	95.21	95.20	95.18	91.29	89.93	88.91	86.63
TraGe	71.38	71.10	70.93	91.75	91.72	91.68	95.94	95.90	95.91	89.02	90.04	88.61	86.78
TrafficFormer	72.32	71.56	71.69	92.15	91.94	91.97	95.17	94.98	95.01	91.25	90.10	89.12	86.95
Nethira	77.33	74.58	75.55	92.35	92.44	92.34	96.62	96.42	96.40	97.26	97.40	97.29	90.40

Nethira는 평균 F1이 9.11% 포인트 향상되며 7개의 사전 학습 기준 모델을 능가합니다.
네 데이터세트에서 Nethira는 Baselines 대비 App에서 11.49%, Service에서 5.36%, USTC-TFC에서 1.52%, CIC-IoT에서 18.05%의 F1을 더 달성합니다.
단 1%의 라벨 데이터로도 Nethira는 CIC-IoT F1 0.9452를 달성하며, 전체 라벨로 학습된 일부 모델과 동등하거나 더 우수합니다.
계층적 재구성 없이 사전 학습은 성능을 4.78% 포인트 감소시키고, L_byte만 사용하는 경우 1.71% 감소하며, 증강 없이 미세 조정하면 7.84% 감소합니다.
제약된 라벨 하에서 CIC-IoT 데이터셋은 패킷 수준 이질성이 높아 강력한 이득을 보이며(ANPF 관련 효과).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.