[논문 리뷰] IoT Security: Botnet detection in IoT using Machine learning
이 논문은 BoT-IoT 데이터에 대해 기능 공학과 SMOTE를 적용한 감독 학습(KNN, Naive Bayes, MLP-ANN)을 사용한 IoT용 봇넷-DDoS 탐지 모델을 제안합니다; KNN이 가장 우수한 성능을 보이고, 불균형 데이터는 신뢰할 수 있는 평가를 위해 SMOTE와 교차 검증이 필요합니다.
The acceptance of Internet of Things (IoT) applications and services has seen an enormous rise of interest in IoT. Organizations have begun to create various IoT based gadgets ranging from small personal devices such as a smart watch to a whole network of smart grid, smart mining, smart manufacturing, and autonomous driver-less vehicles. The overwhelming amount and ubiquitous presence have attracted potential hackers for cyber-attacks and data theft. Security is considered as one of the prominent challenges in IoT. The key scope of this research work is to propose an innovative model using machine learning algorithm to detect and mitigate botnet-based distributed denial of service (DDoS) attack in IoT network. Our proposed model tackles the security issue concerning the threats from bots. Different machine learning algorithms such as K- Nearest Neighbour (KNN), Naive Bayes model and Multi-layer Perception Artificial Neural Network (MLP ANN) were used to develop a model where data are trained by BoT-IoT dataset. The best algorithm was selected by a reference point based on accuracy percentage and area under the receiver operating characteristics curve (ROC AUC) score. Feature engineering and Synthetic minority oversampling technique (SMOTE) were combined with machine learning algorithms (MLAs). Performance comparison of three algorithms used was done in class imbalance dataset and on the class balanced dataset.
연구 동기 및 목표
- IoT 네트워크의 봇넷 기반 DDoS 위협을 해결함으로써 IoT 보안을 고취한다.
- BoT-IoT 트래픽 데이터로 학습된 머신 러닝 기반 탐지기를 개발한다.
- SMOTE 및 특징 엔지니어링을 사용하여 클래스 불균형 문제를 완화한다.
- 실제 IoT 봇넷 데이터에서 여러 감독 ML 알고리즘을 평가하고 비교한다.
제안 방법
- 봇넷 및 정상 IoT 트래픽으로 구성된 BoT-IoT 데이터셋을 모델 학습 및 평가에 사용한다.
- 데이터 정제, 정규화 및 숫자 특징으로의 변환을 수행한다.
- chi-square (F-score) 통해 상위 특징(8개)을 선별하는 특징 엔지니어링을 적용한다.
- 데이터셋을 SMOTE로 균형 있게 만들어 클래스 균형 데이터를 생성한다.
- Gaussian Naive Bayes, KNN, MLP-ANN 분류기를 80/20 학습/테스트 분할 및 5-폴드 교차 검증으로 학습하고 평가한다.
- 정확도, 정밀도, 재현율, F1-score, ROC AUC를 사용해 성능을 평가하되, 심한 클래스 불균형으로 ROC AUC를 강조한다.
실험 결과
연구 질문
- RQ1어떤 감독 ML 알고리즘(Gaussian NB, KNN, MLP-ANN)이 BoT-IoT 데이터에서 최상의 봇넷 탐지 성능을 제공하는가?
- RQ2클래스 불균형이 모델 성능에 미치는 영향과 SMOTE의 균형이 결과에 어떤 영향을 미치는가?
- RQ3상위 8개 특징 중 어떤 특징이 봇넷과 정상 IoT 트래픽을 가장 효과적으로 구분하는가?
- RQ4교차 검증 결과가 보지 않은 데이터에 대한 모델 신뢰성 측면에서 단순한 학습/테스트 분할에 비해 어떤 차이를 보이는가?
주요 결과
- 실제(불균형) BoT-IoT 데이터셋에서 Gaussian NB는 약 100% 정확도를 달성했지만 ROC AUC는 약 0.51이고 재현율/F1이 낮아 불균형 데이터에서 구분력이 낮음을 나타낸다.
- KNN은 두 데이터셋에서 높은 성능을 보였으며, 불균형 데이터에서 정확도 99.6%, ROC AUC 99.2%를 달성했고, SMOTE 균형 데이터에서는 92.1%의 정확도와 92.2%의 ROC AUC를 달성했다.
- MLP-ANN은 87.4%의 정확도와 상대적으로 낮은 정밀도/재현율/F1/ROC AUC를 보여 이 작업에서 KNN에 비해 성능이 떨어졌다.
- SMOTE는 데이터셋을 1,989,656개의 샘플로 균형 있게 만들어(봇넷과 정상 트래픽이 동일), 모델 성능의 더 신뢰할 수 있는 평가를 가능하게 했다.
- 상위 8개 특징(바이트, s바이트, d바이트, 비율, 패킷, s패킷, s비율, d비율)이 카이제곱 특징 점수로 가장 구분력이 높은 것으로 확인되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.