[논문 리뷰] Adversarial Deep Learning for Robust Detection of Binary Encoded Malware
이 논문은 이산적 바이너리 도메인에 연속 공간의 안정점 최적화를 적응시켜 이진 인코딩 악성코드를 탐지하기 위한 강건한 적대적 훈련 프레임워크인 Sleipnir을 제안한다. 기능적으로 보존된 적대적 악성코드 예제를 생성하기 위한 네 가지 방법을 도입하였으며, 랜덤화된 내부 최대화가 기준 모델 대비 최대 3.0배 높은 블라인드 스팟 커버리지와 2.4% 낮은 거짓 음성 비율을 달성했으며, 강건성과 관련된 온라인 측정치 ($\bar{\mathcal{N}}_{BS}$)가 강건성과 상관관계를 보였다.
Malware is constantly adapting in order to avoid detection. Model based malware detectors, such as SVM and neural networks, are vulnerable to so-called adversarial examples which are modest changes to detectable malware that allows the resulting malware to evade detection. Continuous-valued methods that are robust to adversarial examples of images have been developed using saddle-point optimization formulations. We are inspired by them to develop similar methods for the discrete, e.g. binary, domain which characterizes the features of malware. A specific extra challenge of malware is that the adversarial examples must be generated in a way that preserves their malicious functionality. We introduce methods capable of generating functionally preserved adversarial malware examples in the binary domain. Using the saddle-point formulation, we incorporate the adversarial examples into the training of models that are robust to them. We evaluate the effectiveness of the methods and others in the literature on a set of Portable Execution~(PE) files. Comparison prompts our introduction of an online measure computed during training to assess general expectation of robustness.
연구 동기 및 목표
- 적대적 예제가 악성 기능을 유지하면서 탐지 회피를 시도하는 악성코드 탐지기의 취약성을 해결하기 위해.
- 특히 연속 영역에서의 강건한 적대적 훈련 방법—구체적으로 안정점 최적화—를 악성코드에서 흔히 볼 수 있는 이산적 바이너리 특징 공간에 적응시키기 위해.
- 기능을 보존하는 적대적 예제를 생성하고, 회피 공격에 대한 모델의 강건성을 향상시키는 훈련 프레임워크를 개발하기 위해.
- 훈련 중 모델 강건성의 일반 기대치를 평가하기 위한 온라인 훈련 지표 ($\bar{\mathcal{N}}_{BS}$)를 도입하기 위해.
- 포트러블 엑스큐티브(PE) 파일에 대해 프레임워크를 평가하고 기존의 적대적 제작 방법과의 강건성 비교를 수행하기 위해.
제안 방법
- Sleipnir 프레임워크는 바이너리 인코딩 악성코드 특징에 대해 딥 네ural 네트워크(DNNs)를 훈련시키기 위해 안정점 최적화 공식을 사용하며, 강건성을 최소-최대 게임으로 간주한다.
- 기능을 보존하면서 바이너리 도메인에서 적대적 악성코드 예제를 생성하기 위해 네 가지 내부 최대화 방법—dFGSM$^k$, rFGSM$^k$, BGA$^k$, 및 BCA$^k$—을 제안한다.
- 투영된 기울기 하강법의 반올림 단계에서 랜덤화를 적용하여 적대적 공간 탐색을 향상시키고 블라인드 스팟 커버리지를 증가시킨다.
- 적대적 예제를 적대적 훈련을 통해 훈련 과정에 통합하여, 변형에 대한 최악의 손실을 최소화한다.
- 브룸 필터를 사용하여 계산된 온라인 측정치 $\bar{\mathcal{N}}_{BS}$는 훈련 중 생성된 고유한 적대적 샘플 수를 근사하여 강건성을 평가한다.
- 모델은 $k=50$개의 변형을 각 샘플당 적용한 총 7,600개의 PE 파일 데이터셋(양성 3,800개, 악성 3,800개)을 대상으로 평가되었다.
실험 결과
연구 질문
- RQ1연속 영역에서 유래한 안정점 최적화 공식이 악성코드 특징의 이산적 바이너리 도메인에 효과적으로 적응될 수 있는가?
- RQ2기존 악성코드의 악성 기능을 보존하면서 바이너리 도메인에서 적대적 예제를 생성할 수 있는가?
- RQ3적대적 훈련에 랜덤화된 내부 최대화를 통합하면 회피 공격에 대한 모델의 강건성이 뚜렷이 향상되는가?
- RQ4온라인 훈련 지표 $\bar{\mathcal{N}}_{BS}$는 훈련 중 모델 강건성의 일반 기대치를 신뢰성 있게 반영할 수 있는가?
- RQ5실제 PE 파일에서 제안된 프레임워크는 기존의 적대적 제작 방법, 예를 들어 [13]의 방법과 비교해 강건성이 뛰어나게 되는가?
주요 결과
- 랜덤화된 rFGSM$^k$ 방법은 자연 기준 모델 대비 최고의 블라인드 스팟 커버리지 ($\mathbf{+3.0}$)와 가장 낮은 거짓 음성 비율 ($\mathbf{-2.4}$)을 달성했다.
- rFGSM$^k$ 방법은 거짓 양성 비율을 3.6% 감소시켰고, 높은 정확도를 유지하며 다른 적대적 훈련 방법보다 뛰어났다.
- rFGSM$^k$로 훈련된 모델은 자신의 예상 적대자에 대해 뿐만 아니라 5.7%의 회피율을 보이며 강건성을 입증했다.
- 온라인 측정치 $\bar{\mathcal{N}}_{BS}$는 회피율과 블라인드 스팟 커버리지와 강한 상관관계를 보였으며, 실시간 강건성 지표로의 유효성을 입증했다.
- 랜덤화된 방법으로 훈련된 모델는 [13]의 적대적 제작 방법에 대해 15.6%의 회피율을 보였으며, 자연 모델의 99.7% 회피율에 비해 훨씬 낮았다.
- 프레임워크는 투영된 기울기 하강법의 반올림 단계에서의 랜덤화가 자연 훈련보다 바이너리 특징 공간에서 약 네 배 더 많은 악성 샘플을 노출시켰다는 점을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.