QUICK REVIEW

[논문 리뷰] SMART: Semantic Malware Attribute Relevance Tagging.

Felipe N. Ducau, Ethan M. Rudd|arXiv (Cornell University)|2019. 05. 15.

Advanced Malware Detection Techniques인용 수 9

한 줄 요약

이 논문은 악성 파일의 유사한 행동을 가진 파일들이 표현 공간 내에서 가까이 군집되도록 학습하는 딥러닝 모델인 SMART를 제안한다. 이 모델은 각 태그당 1% 이하의 위양성 비율에서 악성코드에 정확한 설명을 태그로 부여할 때 95%의 정확도를 달성하며, 동적 실행 트레이스를 사용하여 원시 특징 벡터 대비 유사도 인덱스 크기를 32배 줄였다.

ABSTRACT

With the rapid proliferation and increased sophistication of malicious software (malware), detection methods no longer rely only on manually generated signatures but have also incorporated more general approaches like machine learning detection. Although powerful for conviction of malicious artifacts, these methods do not produce any further information about the type of threat that has been detected neither allows for identifying relationships between malware samples. In this work, we address the information gap between machine learning and signature-based detection methods by learning a representation space for malware samples in which files with similar malicious behaviors appear close to each other. We do so by introducing a deep learning based tagging model trained to generate human-interpretable semantic descriptions of malicious software, which, at the same time provides potentially more useful and flexible information than malware family names. We show that the malware descriptions generated with the proposed approach correctly identify more than 95% of eleven possible tag descriptions for a given sample, at a deployable false positive rate of 1% per tag. Furthermore, we use the learned representation space to introduce a similarity index between malware files, and empirically demonstrate using dynamic traces from files' execution, that is not only more effective at identifying samples from the same families, but also 32 times smaller than those based on raw feature vectors.

연구 동기 및 목표

기계학습 기반 악성코드 탐지와 서명 기반 방법 사이의 정보 격차를 해소하기 위해 해석 가능한 위협 특성 기술을 가능하게 하라.
기존의 전통적 악성코드 패밀리 이름의 한계를 극복하기 위해 악성 행동에 더 풍부하고 의미적인 설명을 생성하라.
유사한 행동을 보이는 악성코드 샘플들이 의미적으로 가까이 위치하는, 압축되고 의미 있는 표현 공간을 학습하라.
원시 특징 벡터에 기반한 것보다 훨씬 효과적이고, 더 작아서 사용 가능한 악성코드 파일 간의 유사도 인덱스를 개발하라.

제안 방법

악성코드의 동적 실행 트레이스를 기반으로 인간이 읽을 수 있는 의미적 설명(태그)를 생성하는 딥러닝 모델을 훈련하라.
유사한 악성 행동을 보이는 악성코드 샘플들이 가까이 임베딩되는 저차원 표현 공간을 학습하라.
학습된 표현을 사용하여 원시 특징 벡터를 대체하는 악성코드 파일 간의 유사도 인덱스를 계산하라.
위양성 비율을 최소화하면서 사전 정의된 태그 카테고리(예: 데이터 유출, 지속성)를 최대한 정확하게 식별할 수 있도록 태깅 모델을 최적화하라.
악성코드 실행에서 유도된 동적 트레이스를 활용하여 표현 학습과 유사도 계산에 사용할 행동 특징을 추출하라.
통제된 위양성 비율을 갖는 다중 레이블 분류 프레임워크를 사용하여 악성코드 샘플을 분류하고 태깅하라.

실험 결과

연구 질문

RQ1딥러닝 모델이 실제 악성 행동을 반영하는 정확하고 인간이 읽을 수 있는 의미적 태그를 악성코드에 생성할 수 있는가?
RQ2학습된 표현 공간이 원시 특징 기반의 유사도에 비해 악성코드 패밀리 식별에 얼마나 향상되는가?
RQ3학습된 표현 기반의 유사도 인덱스 크기는 원시 특징 벡터 기반의 것과 비교해 어떻게 되는가?
RQ4다양한 사전 정의된 태그에 걸쳐 특정 악성 행동을 식별할 때 태깅 모델의 위양성 비율은 얼마인가?

주요 결과

SMART 모델은 주어진 악성코드 샘플에 대해 11개의 사전 정의된 악성 행동 태그 중 95% 이상을 정확히 식별한다.
모델은 각 태그당 1% 이하의 실사용 가능한 위양성 비율을 유지하여 실세계 적용에서 높은 신뢰성을 확보한다.
학습된 표현 기반의 유사도 인덱스는 원시 특징 벡터 기반의 것보다 32배 작다.
학습된 표현 공간은 동적 실행 트레이스를 사용하여 동일 패밀리의 악성코드 샘플을 식별하는 데 있어 효과를 크게 향상시킨다.
생성된 의미적 태그는 기존의 악성코드 패밀리 이름보다 더 영리하고 정보가 풍부한 기술 설명을 제공한다.
이 방법은 블랙박스 기계학습 탐지와 인간이 읽을 수 있는 위협 분석 사이의 격차를 성공적으로 메운다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.