QUICK REVIEW

[논문 리뷰] R2-D2: ColoR-inspired Convolutional NeuRal Network (CNN)-based AndroiD Malware Detections

TonTon Hsien-De Huang, Hung‐Yu Kao|arXiv (Cornell University)|2017. 05. 12.

Advanced Malware Detection Techniques참고 문헌 11인용 수 38

한 줄 요약

R2-D2는 라이트-컬러 기반의 컨volutional 신경망(CNN)을 제안하여 엔드 투 엔드 Android 악성코드 탐지 기술을 개발한다. Dalvik 바이트코드(classes.dex)를 고정 크기의 RGB 색상 이미지로 변환함으로써 수동 특징 공학 없이 자동 특징 학습이 가능하다. 이 시스템은 829,356개의 Android 샘플에서 93%의 정확도와 96%의 탐지율을 기록했으며, 앱당 추론 시간은 0.5초이며, 랜섬웨어 및 이더리움 스마트 컨트랙트 취약점 탐지로도 확장된다.

ABSTRACT

The influence of Deep Learning on image identification and natural language processing has attracted enormous attention globally. The convolution neural network that can learn without prior extraction of features fits well in response to the rapid iteration of Android malware. The traditional solution for detecting Android malware requires continuous learning through pre-extracted features to maintain high performance of identifying the malware. In order to reduce the manpower of feature engineering prior to the condition of not to extract pre-selected features, we have developed a coloR-inspired convolutional neuRal networks (CNN)-based AndroiD malware Detection (R2-D2) system. The system can convert the bytecode of classes.dex from Android archive file to rgb color code and store it as a color image with fixed size. The color image is input to the convolutional neural network for automatic feature extraction and training. The data was collected from Jan. 2017 to Aug 2017. During the period of time, we have collected approximately 2 million of benign and malicious Android apps for our experiments with the help from our research partner Leopard Mobile Inc. Our experiment results demonstrate that the proposed system has accurate security analysis on contracts. Furthermore, we keep our research results and experiment materials on http://R2D2.TWMAN.ORG.

연구 동기 및 목표

2012년 100만 건에서 2016년 1,700만 건으로 증가한 악성코드의 증가 추세를 고려하여 Android 악성코드의 증가 위협을 해결하기 위해.
지속적으로 변화하는 악성코드에 빠르게 대응하지 못하는 수동 특징 추출에 의존하는 전통적 악성코드 탐지 방법의 한계를 극복하기 위해.
수동 특징 공학에 의존하지 않고 원시 바이트코드에서 자동으로 특징을 학습할 수 있는 엔드 투 엔드 딥 러닝 시스템을 개발하기 위해.
높은 효율성과 낮은 지연 시간을 바탕으로 기존 악성코드뿐 아니라 알려지지 않은 Android 악성코드도 실시간으로 탐지할 수 있도록 하기 위해.
바이트코드의 시각적 패턴 분석을 통해 랜섬웨어 패밀리와 이더리움 스마트 컨트랙트의 취약점을 탐지할 수 있도록 방법을 확장하기 위해.

제안 방법

바이트 값들을 색상 채널에 매핑하여 Android APK 파일의 Dalvik 바이트코드(특히 classes.dex)를 고정 크기의 RGB 색상 이미지로 변환한다.
사전 훈련된 컨볼루션 신경망(CNN)을 사용하여 수동 특징 공학 없이 색상 인코딩된 이미지에서 특징을 자동으로 추출한다.
2017년 1월에서 8월 사이에 수집한 200만 개의 Android 앱 데이터셋(양성 및 악성 샘플 포함)을 사용해 CNN을 훈련시킨다.
전이 학습 및 미세 조정 기법을 활용하여 일반화 능력이 높은 악성코드 탐지용 CNN으로 적응시킨다.
실시간 디바이스 내 탐지를 위해 모델을 TensorFlow Lite를 사용해 모바일 디바이스에 통합하며, R2-D2의 모바일 버전에서 이를 구현하였다.
Solidity 바이트코드를 색상 이미지로 변환하고 동일한 CNN을 사용해 보안 취약점을 탐지하도록 방법을 확장하여 이더리움 스마트 컨트랙트에 적용한다.

실험 결과

연구 질문

RQ1원시 Android 바이트코드는 악성코드 탐지에 유용한 의미적 패턴을 유지하는 시각적 표현으로 효과적으로 변환될 수 있는가?
RQ2색상 인코딩된 바이트코드를 기반으로 훈련된 CNN 기반 모델은 수동 특징 공학 없이도 알려진 및 알려지지 않은 Android 악성코드를 높은 정확도로 탐지할 수 있는가?
RQ3R2-D2 시스템의 성능은 기존 최고 수준의 악성코드 탐지 방법과 비교해 탐지율, 위양성 비율, 추론 속도 측면에서 어떻게 다른가?
RQ4색상 인코딩된 악성코드 바이트코드의 시각적 패턴을 인간의 검토를 통해 랜섬웨어 패밀리를 식별할 수 있으며, 인간의 인지 범위를 초월한 미세한 차이를 모델이 탐지할 수 있는가?
RQ5동일한 색상 기반 딥 러닝 접근법이 이더리움 스마트 컨트랙트의 취약점을 탐지하는 데 성공적으로 적용될 수 있는가?

주요 결과

R2-D2는 829,356개의 Android 샘플에서 96%의 탐지율과 9%의 위양성 비율을 기록했으며, 총 정확도는 93%였다.
각 샘플을 처리하는 데 0.5초가 소요되었으며, 이는 이전 방법이 분석에 최대 175.8초가 걸렸던 것과 비교해 뚜렷이 빠른 속도였다.
2017년 9월에 별도로 수집한 20,035개의 악성 샘플 테스트 세트에서 R2-D2는 18,514개(91.72%의 진양성 비율)를 탐지했다.
20,313개의 양성 샘플 중 1,799개가 잘못으로 경고됨(8.85%의 위양성 비율)으로, 강력한 특이성을 보였다.
5,852개의 랜섬웨어 샘플에 대해 모델은 96.88%의 진양성 탐지율을 기록했으며, 이는 이 고위험 악성코드 패밀리에 대해 뛰어난 성능을 보임을 시사한다.
연구 결과, 동일한 패밀리에 属하는 랜섬웨어 샘플은 시각적으로 유사한 패턴을 보이며, 이는 빠른 분류를 가능하게 하지만, 세분화된 구분은 R2-D2 모델이 필요함을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.