QUICK REVIEW

[논문 리뷰] Using Side Channel Information and Artificial Intelligence for Malware Detection

Paul Maxwell, David Niblick|arXiv (Cornell University)|2020. 12. 03.

Advanced Malware Detection Techniques참고 문헌 22인용 수 3

한 줄 요약

이 논문은 바이너리 코드나 네트워크 트래픽에 접근할 수 없더라도 악성코드의 활성화 여부를 탐지할 수 있도록, CPU 온도, 팬 속도, 메모리 사용량과 같은 하드웨어 사이드채널 신호를 활용하고 인공지능 기술을 접목한 새로운 악성코드 탐지 시스템을 제안한다. 순환 신경망(RNN), 특히 양방향 LSTM을 사용하여 악성코드 존재 여부를 90.91%의 정확도로 분류함으로써, 자원이 제한된 환경이나 오프라인 환경에서도 하드웨어 사이드채널 데이터를 통해 효과적인 시그니처 기반 탐지가 가능하다는 것을 입증한다.

ABSTRACT

Cybersecurity continues to be a difficult issue for society especially as the number of networked systems grows. Techniques to protect these systems range from rules-based to artificial intelligence-based intrusion detection systems and anti-virus tools. These systems rely upon the information contained in the network packets and download executables to function. Side channel information leaked from hardware has been shown to reveal secret information in systems such as encryption keys. This work demonstrates that side channel information can be used to detect malware running on a computing platform without access to the code involved.

연구 동기 및 목표

바이너리 코드나 네트워크 패킷 분석 없이도 사이드채널 하드웨어 신호만을 이용해 악성코드를 탐지할 수 있는 개념 증명 시스템을 개발하는 것.
인공지능 모델이 사이드채널 데이터에 반영된 저수준 시스템 동작을 기반으로 악성코드 존재 여부를 효과적으로 분류할 수 있음을 입증하는 것.
향후 AI 기반 사이드채널 악성코드 탐지 연구를 지원하기 위해, 악성코드 실행 시 생성된 사이드채널 트레이스를 포함한 공개 데이터셋을 구축하고 배포하는 것.
특히 RNN을 포함한 다양한 딥러닝 아키텍처가 다양한 길이의 사이드채널 시퀀스에 대해 실시간 탐지 성능을 어떻게 발휘하는지 평가하는 것.

제안 방법

기본 악성코드 샘플을 실행하는 제어된 시스템에서 CPU 온도, 팬 속도, 메모리 사용량 등의 사이드채널 데이터를 수집하였다.
시간 순서 데이터를 정규화하고 시퀀스 서브샘플링을 적용하여 훈련 데이터의 다양성을 높이는 방식으로 시간 시리즈 사이드채널 데이터를 전처리하였다.
다양한 딥러닝 모델을 훈련: 다층 퍼셉트론(MLP), 1차원 컨볼루션 신경망(CNN), 다양한 순환 신경망(RNN), LSTMs 및 GRU 변종 포함.
시간적 맥락 이해를 향상시키기 위해 양방향 RNN을 사용하여 짧고 긴 시퀀스 모두에 대한 분류 성능을 향상시켰다.
정확도, 위양성 비율, 위음성 비율 등의 표준 지표를 사용하여 다양한 시퀀스 길이에서 모델 성능을 평가하였다.
시퀀스 길이 서브샘플링을 통한 데이터 증강 기법을 적용하여 데이터셋 크기를 인위적으로 증가시키고 모델의 일반화 능력을 향상시켰다.

실험 결과

연구 질문

RQ1컴퓨팅 하드웨어의 사이드채널 신호를 사용하여 바이너리 코드나 네트워크 트래픽에 접근하지 않고도 활성 악성코드를 탐지할 수 있는가?
RQ2다양한 길이의 사이드채널 데이터 시퀀스에서 다양한 딥러닝 아키텍처가 악성코드 존재 여부를 어떻게 분류하는가?
RQ3짧고 실시간적인 사이드채널 시퀀스를 기반으로 악성코드를 탐지할 때, 순환 신경망(RNN)이 피드포워드 또는 컨볼루션 모델을 능가할 수 있는가?
RQ4제안된 시스템이 다양한 악성코드 유형과 시스템 구성 간에 얼마나 잘 일반화되는가?
RQ5어떤 사이드채널 특징가 악성코드 탐지 정확도에 가장 크게 기여하는가? 그리고 특징 중요도 분석을 통해 데이터 차원을 줄일 수 있는가?

주요 결과

양방향 LSTM RNN 모델이 파일 샘플에서 가장 높은 분류 정확도 90.91%를 기록하여 다른 모델보다 악성코드 존재 여부 탐지 성능이 뛰어났다.
순환 모델, 특히 LSTMs는 매우 짧은 시퀀스(500ms)에서 99.39%의 정확도를 달성하여 실시간 탐지 잠재력이 매우 높다는 것을 시사한다.
40ms 이하의 시퀀스 길이에서는 RNN이 1D CNN보다 성능이 뛰어나, RNN이 미세한 분해능과 낮은 지연 시간이 요구되는 악성코드 탐지에 더 적합하다는 것을 시사한다.
MLP 모델의 평균 악성코드 탐지 시간은 54.33초, CNN 모델은 55.19초로 모두 25초 이내 탐지 기준을 충족하여 실시간 성능이 실용적임을 입증하였다.
동일한 데이터셋에서 1D CNN은 95.83%의 정확도를, MLP는 85.47%의 정확도를 기록하여 사이드채널 데이터에 대한 딥러닝의 효과성을 확인하였다.
본 연구에서 구축한 데이터셋은 다양한 실행 프로파일을 가진 16종의 악성코드 샘플을 포함하며, 향후 사이드채널 악성코드 탐지 연구를 지원하기 위해 공개되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.