QUICK REVIEW

[논문 리뷰] A multi-task learning model for malware classification with useful file access pattern from API call sequence

Xin Wang, Siu Ming Yiu|arXiv (Cornell University)|2016. 10. 19.

Advanced Malware Detection Techniques참고 문헌 12인용 수 28

한 줄 요약

이 논문은 원시 API 호출 시퀀스에서 공유된 RNN 기반 오토인코더를 사용하여 악성코드 분류와 파일 액세스 패턴(FAP) 생성을 동시에 수행하는 다중 작업 딥러닝 모델을 제안한다. 이 모델은 비지도 표현 학습과 두 개의 디코더(분류용 및 해석 가능한 FAP 생성용)를 활용하여 경쟁적인 분류 정확도(최대 99.9%)와 고품질의 FAP 생성을 달성하며, 수동 특징 공학 없이도 모델의 해석 가능성을 향상시킨다.

ABSTRACT

Based on API call sequences, semantic-aware and machine learning (ML) based malware classifiers can be built for malware detection or classification. Previous works concentrate on crafting and extracting various features from malware binaries, disassembled binaries or API calls via static or dynamic analysis and resorting to ML to build classifiers. However, they tend to involve too much feature engineering and fail to provide interpretability. We solve these two problems with the recent advances in deep learning: 1) RNN-based autoencoders (RNN-AEs) can automatically learn low-dimensional representation of a malware from its raw API call sequence. 2) Multiple decoders can be trained under different supervisions to give more information, other than the class or family label of a malware. Inspired by the works of document classification and automatic sentence summarization, each API call sequence can be regarded as a sentence. In this paper, we make the first attempt to build a multi-task malware learning model based on API call sequences. The model consists of two decoders, one for malware classification and one for $\emph{file access pattern}$ (FAP) generation given the API call sequence of a malware. We base our model on the general seq2seq framework. Experiments show that our model can give competitive classification results as well as insightful FAP information.

연구 동기 및 목표

악성 행동을 설명하지 못하는 전통적인 악성코드 분류기에서의 해석 불가능성 문제를 해결한다.
기존 악성코드 탐지 시스템에서 수동 특징 공학의 한계를 극복하기 위해 원시 API 호출 시퀀스에서 종단 간 자동 표현 학습을 가능하게 한다.
공유된 잠재 표현을 사용해 악성코드 분류기와 파일 액세스 패턴(FAP) 생성기를 함께 훈련시킴으로써 모델의 강건성과 일반화 능력을 향상시킨다.
패킹 또는 오브스컬레이션로 인해 유사한 API 호출 시퀀스를 가진 악성코드 가족을 구분하거나 제로데이 악성코드를 탐지하기 위해, 사전 정의된 가족 레이블을 초월하는 행동 기반 기술적 FAP 생성을 가능하게 한다.

제안 방법

원시 API 호출 시퀀스의 저차원 비지도 표현을 학습하기 위해 RNN 기반 오토인코더(RNN-AE)를 사용한다.
두 개의 디코더를 갖춘 다중 작업 seq2seq 프레임워크를 설계한다: 하나는 악성코드 가족 분류를 위해, 다른 하나는 파일 액세스 행동에 대한 자연어 기반 기술(예: FAP)을 생성하기 위해.
RNN-AE에서 추출한 공유된 인코딩 표현을 활용해 분류 및 FAP 생성에 대한 지도 신호를 사용해 종단 간(end-to-end)으로 모델을 훈련시킨다.
FAP 감독을 위해 히우리스틱 기반 규칙 방법을 사용해 API 호출 시퀀스에서 자동으로 파일 액세스 패턴을 추출하여 학습 레이블을 생성한다.
시퀀스에서 시퀀스 모델링을 통해 FAP를 텍스트 시퀀스로 생성하며, 각 API 호출 시퀀스를 자연어 유사 형식의 '문장'으로 간주한다.
실세계 악성코드 데이터셋에서 세밀한 분류 성능과 FAP 생성 성능을 평가하여 아키텍처의 다양한 변형을 비교한다.

실험 결과

연구 질문

RQ1원시 API 호출 시퀀스에서 학습된 공유 표현이 악성코드 분류와 해석 가능한 파일 액세스 패턴(FAP) 생성에 효과적으로 기여할 수 있는가?
RQ2분류 및 FAP 생성을 함께 훈련시킬 경우, 단일 작업 모델 대비 모델의 해석 가능성은 어떻게 향상되는가?
RQ3RNN-AE를 통한 비지도 표현 학습은 악성코드 분류에서 수동 특징 공학의 필요성을 얼마나 줄일 수 있는가?
RQ4모델이 생성한 FAP는 패킹 또는 오브스컬레이션로 인해 유사한 API 호출 시퀀스를 가진 악성코드 가족을 효과적으로 구분하는 데 도움이 되는가?
RQ5사전 정의된 레이블이 아닌 FAP에 의존할 경우, 제로데이 또는 이전에 보지 못한 악성코드 가족에 대해 모델의 성능은 어떠한가?

주요 결과

제안된 다중 작업 모델은 테스트 분류 정확도 99.2%와 FAP 생성 정확도 99.3%를 달성하여 두 작업 모두 뛰어난 성능을 보였다.
비지도 RNN-AE 인코더는 다양한 악성코드 가족 간에 잘 일반화되는 강력한 저차원 표현을 학습하며, API 호출 시퀀스가 매우 유사한 경우에도 유사한 성능을 유지한다.
세밀한 평가 결과, FAP는 실제 악성코드 가족을 정밀하게 특정하는 데 효과적이며, 예를 들어 net-worm.win32.allaple와 adware.win32.megasearch를 높은 정밀도로 식별할 수 있었다.
모델은 파일 시스템 행동을 기술하는 의미 있고 해석 가능한 FAP를 성공적으로 생성하여, 특정 파일을 생성하거나 수정하는 등의 행동을 기반으로 한 실질적인 통찰을 제공한다.
분류 및 FAP 생성 성능 모두에서 단일 작업 기반 베이스라인을 능가함으로써, 악성코드 분석에서 다중 작업 학습의 유용성을 확인하였다.
잠재 표현의 시각화 결과, 동일한 가족에 属하는 악성코드 샘플들이 군집되어 있으며, 서로 다른 가족 간에는 잘 분리되어 있음을 확인하여 학습된 임베딩의 품질을 검증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.