QUICK REVIEW

[논문 리뷰] Lightweight Classification of IoT Malware based on Image Recognition

Jiawei Su, Danilo Vargas|arXiv (Cornell University)|2018. 02. 11.

Advanced Malware Detection Techniques참고 문헌 16인용 수 34

한 줄 요약

이 논문은 자원이 제한된 IoT 기기에서 사용 가능한 경량의 CNN 기반 악성코드 분류 시스템을 제안한다. 이 시스템은 IoT 악성코드 바이너리 파일을 회색조 이미지로 변환하여 이중층 컨볼루션 신경망을 사용해 탐지한다. 이는 악성 소프트웨어와 DDoS 악성코드를 구분할 때 94.0%의 정확도를 달성했으며, 정상 소프트웨어, Mirai, Gafgyt 가족을 분류할 때는 81.8%의 정확도를 기록하여 자원이 제한된 IoT 기기에서의 구현 가능성을 입증한다.

ABSTRACT

The Internet of Things (IoT) is an extension of the traditional Internet, which allows a very large number of smart devices, such as home appliances, network cameras, sensors and controllers to connect to one another to share information and improve user experiences. Current IoT devices are typically micro-computers for domain-specific computations rather than traditional functionspecific embedded devices. Therefore, many existing attacks, targeted at traditional computers connected to the Internet, may also be directed at IoT devices. For example, DDoS attacks have become very common in IoT environments, as these environments currently lack basic security monitoring and protection mechanisms, as shown by the recent Mirai and Brickerbot IoT botnets. In this paper, we propose a novel light-weight approach for detecting DDos malware in IoT environments.We firstly extract one-channel gray-scale images converted from binaries, and then utilize a lightweight convolutional neural network for classifying IoT malware families. The experimental results show that the proposed system can achieve 94.0% accuracy for the classification of goodware and DDoS malware, and 81.8% accuracy for the classification of goodware and two main malware families.

연구 동기 및 목표

자원이 제한된 IoT 기기에서 실행 가능한 경량의 현장 악성코드 탐지 솔루션 부족 문제를 해결하기 위해.
실제로 최근에 수집한 Mirai 및 Gafgyt 악성코드 샘플을 이용해 IoT 환경에서의 실제 악성코드 샘플 부족 문제를 해결하기 위해.
바이너리의 이미지 기반 표현과 최소한의 딥러닝 모델을 활용해 IoT 기기에서 현장에서 실시간 악성코드 분류를 가능하게 하기 위해.
복잡한 전처리나 대규모 모델 없이도 높은 탐지 정확도를 달성할 수 있는 얕고 경량의 CNN이 가능함을 입증하기 위해.
클라우드 기반 시스템에서 더 세부적인 가족 분류를 맡기 위해 현장에서 사용 가능한 첫 번째 단계의 분류기 제공하기 위해.

제안 방법

바이너리 바이트를 픽셀 강도로 해석하여 악성코드 및 정상 응용 프로그램 바이너리를 단일 채널 회색조 이미지로 변환한다.
이러한 이미지 표현을 기반으로 악성코드 가족과 정상 소프트웨어를 분류하기 위해 이중층 컨볼루션 신경망(CNN)을 훈련시킨다.
저비용의 계산을 위해 최소한의 완전 연결 계층과 저차원 입력을 사용하는 경량 아키텍처를 채택하여 IoT 기기에서의 실행 가능성을 확보한다.
이미지로 변환된 바이너리에서 공간적 특징을 추출하기 위해 컨볼루션, ReLU 활성화 함수, 풀링과 같은 표준 CNN 연산을 적용한다.
모델의 추론 효율성을 높이기 위해 파rameter 수를 최소화하고 복잡한 연산을 피함으로써 처리 능력이 제한된 기기에서도 배포 가능하도록 최적화한다.
전용 IoT 환경에서 수집한 실제 IoT 악성코드(Mirai, Gafgyt) 및 정상 바이너리로 구성된 고유한 데이터셋을 활용해 시스템을 훈련 및 평가한다.

실험 결과

연구 질문

RQ1자원이 제한된 기기에서 바이너리 파일의 이미지 표현을 사용해 경량의 CNN 기반 시스템이 효과적으로 IoT 악성코드를 분류할 수 있는가?
RQ2기존 접근 방식과 비교할 때 제안된 이미지 기반 악성코드 분류 시스템의 정확도와 모델 크기 측면에서의 성능는 어떠한가?
RQ3Mirai 및 Gafgyt와 같은 IoT 악성코드 가족이 바이너리에서 이미지로 변환된 표현에서 얼마나 시각적으로 유사한가? 이는 분류 정확도에 어떤 영향을 미치는가?
RQ4외부 클라우드 처리에 의존하지 않고도 소형이고 효율적인 CNN을 현장에서 악성코드 탐지에 배포하는 것이 가능한가?
RQ5기존의 기계학습 분류기(SVM, KNN 등)와 비교했을 때 이 방법은 IoT 환경에서의 계산 오버헤드와 확장성 측면에서 어떻게 다른가?

주요 결과

제안된 시스템은 이진 분류 작업에서 정상 소프트웨어와 DDoS 악성코드를 구분할 때 94.0%의 정확도를 달성했다.
삼진 분류 작업에서는 정상 소프트웨어, Mirai, Gafgyt 악성코드 가족을 구분할 때 81.8%의 정확도를 기록했다.
삼진 분류 설정에서 잘못 분류된 모든 악성코드 샘플은 Gafgyt 가족에 속하며, Gafgyt 샘플의 6.67%가 잘못되어 정상 소프트웨어로 분류되었다.
Mirai 샘플 중 하나도 정상 소프트웨어로 잘못 분류된 경우가 없었으며, 이는 Mirai 바이너리가 Gafgyt 바이너리보다 정상 소프트웨어와 더 시각적으로 뚜렷한 특징을 지닌다는 것을 의미한다.
매우 단순한 아키텍처(이중 컨볼루션 레이어, 낮은 수의 파라미터)임에도 불구하고 모델의 성능가 뛰어나 엣지 배포에 적합하다.
특히 VGG와 같은 깊은 네트워크를 사용한 유사 작업과 비교했을 때, 훨씬 더 작고 효율적인 모델을 사용하면서도 이전 연구들에 비해 정확도에서 뒤지지 않는 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.