[논문 리뷰] Fast & Furious: Modelling Malware Detection as Evolving Data Streams
이 논문은 개념 드리프트와 특성 드리프트에 대응하여 분류기와 특성 추출기 모두를 공동으로 적응시키는 새로운 데이터 스트림 학습 파이프라인을 제안한다. DREBIN과 AndroZoo에서 2009~2018년 사이에 수집한 415만 개의 안드로이드 앱을 대상으로 Word2Vec 및 TF-IDF 특성으로 학습함으로써, 드리프트 시점에 두 구성 요소를 모두 업데이트할 경우 DREBIN에서 F1 스코어가 22.05 포인트 향상되고 AndroZoo에서는 8.77 포인트 향상되어 정적 모델 및 분류기만 별도로 업데이트하는 것보다 성능이 뛰어나다는 것을 입증한다.
Malware is a major threat to computer systems and imposes many challenges to cyber security. Targeted threats, such as ransomware, cause millions of dollars in losses every year. The constant increase of malware infections has been motivating popular antiviruses (AVs) to develop dedicated detection strategies, which include meticulously crafted machine learning (ML) pipelines. However, malware developers unceasingly change their samples' features to bypass detection. This constant evolution of malware samples causes changes to the data distribution (i.e., concept drifts) that directly affect ML model detection rates, something not considered in the majority of the literature work. In this work, we evaluate the impact of concept drift on malware classifiers for two Android datasets: DREBIN (about 130K apps) and a subset of AndroZoo (about 285K apps). We used these datasets to train an Adaptive Random Forest (ARF) classifier, as well as a Stochastic Gradient Descent (SGD) classifier. We also ordered all datasets samples using their VirusTotal submission timestamp and then extracted features from their textual attributes using two algorithms (Word2Vec and TF-IDF). Then, we conducted experiments comparing both feature extractors, classifiers, as well as four drift detectors (DDM, EDDM, ADWIN, and KSWIN) to determine the best approach for real environments. Finally, we compare some possible approaches to mitigate concept drift and propose a novel data stream pipeline that updates both the classifier and the feature extractor. To do so, we conducted a longitudinal evaluation by (i) classifying malware samples collected over nine years (2009-2018), (ii) reviewing concept drift detection algorithms to attest its pervasiveness, (iii) comparing distinct ML approaches to mitigate the issue, and (iv) proposing an ML data stream pipeline that outperformed literature approaches.
연구 동기 및 목표
- 개념 드리프트가 고립된 사례에 국한되지 않고 다양한 안드로이드 악성코드 데이터셋 전반에 걸쳐 일반화된 현상인지 여부를 조사하는 것.
- 개념 드리프트 발생 시 분류기 외에도 특성 추출기를 함께 업데이트할 필요성이 있는지 평가하는 것.
- 장기적인 악성코드 탐지에 최적화된 특성 추출기, 분류기, 드리프트 탐지 기법의 조합을 규명하는 것.
- 악성코드의 진화로 인한 성능 저하를 완화하는 실시간, 적응형 악성코드 탐지 파이프라인을 제안하고 검증하는 것.
제안 방법
- 저자들은 바이러스토럴 제출 타임스탬프를 기준으로 DREBIN과 AndroZoo에서 415만 개의 안드로이드 앱을 수집하고 순서를 정렬하여 실제 세계의 데이터 스트림를 시뮬레이션한다.
- 텍스트적 특성(예: 권한, API 호출)은 TF-IDF 및 Word2Vec 두 가지 특성 표현 방법을 사용하여 추출한다.
- 개념 드리프트 감지를 기반으로 업데이트되는 두 개의 분류기—적응형 랜덤 포레스트(ARF)와 확률적 경사 하강법(SGD)—를 학습시킨다.
- 네 가지 드리프트 탐지기(DDM, EDDM, ADWIN, KSWIN)를 평가하여 지속적으로 변화하는 데이터 스트림 내의 개념 드리프트를 식별한다.
- 제안된 파이프라인은 드리프트 감지 시 특성 추출기와 분류기를 동적으로 업데이트하여 표현 및 예측의 적응성을 보장한다.
- 시스템은 재현성과 향후 연구를 위한 확장성을 위해 scikit-multiflow의 확장 기능으로 구현된다.
실험 결과
연구 질문
- RQ1개념 드리프트는 특정 데이터 분포에 국한되지 않고 다양한 안드로이드 악성코드 데이터셋 전반에 걸쳐 일반화된 현상인가?
- RQ2개념 드리프트 발생 시 분류기 외에도 특성 추출기를 업데이트할 필요가 있는가?
- RQ3특성 추출기, 분류기, 드리프트 탐지기의 조합 중 어떤 조합이 악성코드 탐지에서 장기적으로 가장 높은 성능을 낼 수 있는가?
- RQ4모델 업데이트 시점(드리프트 유발 vs. 고정 윈도우)이 탐지 성능에 어떤 영향을 미치는가?
- RQ5악성코드의 진화는 안드로이드 생태계 변화와 얼마나 관련이 깊은가?
주요 결과
- 개념 드리프트를 감지한 후에만 분류기를 리셋하는 것이 고정된 시간 윈도우 기반의 주기적 리셋보다 더 높은 성능을 낸다.
- 드리프트 시점에 분류기와 특성 추출기를 함께 업데이트할 경우 F1 스코어가 DREBIN 데이터셋에서 22.05 포인트 향상되며, 가장 높은 탐지 성능을 기록한다.
- 더 큰 AndroZoo 데이터셋에서도 공동 적응의 효과가 뚜렷하여 F1 스코어가 8.77 포인트 향상된다.
- KSWIN 드리프트 탐지기는 DREBIN과 AndroZoo 양 데이터셋에서 DDM, EDDM, ADWIN보다 더 뛰어난 성능을 보였다.
- 연구는 악성코드의 진화가 개념 드리프트와 특성 드리프트를 모두 유도하며, 시간이 지남에 따라 새로운 API 호출, 권한, 어휘가 등장한다는 것을 확인한다.
- 제안된 파이프라인은 scikit-multiflow의 확장 기능으로 제공되어 커뮤니티의 도입과 향후 적응형 악성코드 탐지 연구를 위한 기반을 마련한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.