QUICK REVIEW

[논문 리뷰] Deep Neural Network Based Malware Detection Using Two Dimensional Binary Program Features

Joshua Saxe, Konstantin Berlin|arXiv (Cornell University)|2015. 08. 13.

Advanced Malware Detection Techniques참고 문헌 24인용 수 65

한 줄 요약

이 논문은 수작업 필터링이나 압축 해제 없이, 2차원 바이너리 프로그램 특징—구체적으로는 1024바이트 슬라이딩 윈도우를 사용해 바이트 엔트로피 히스토GRAM을 계산하는 DNN 기반 악성코드 탐지 시스템을 제안한다. 이 방법은 40만 개 이상의 실제 바이너리에서 0.1%의 가짜 양성률에서 95%의 탐지율을 달성하며, 일반 하드웨어에서도 높은 정확도와 낮은 가짜 양성률을 보이며 실시간 기업 환경에 구현되었다.

ABSTRACT

Malware remains a serious problem for corporations, government agencies, and individuals, as attackers continue to use it as a tool to effect frequent and costly network intrusions. Machine learning holds the promise of automating the work required to detect newly discovered malware families, and could potentially learn generalizations about malware and benign software that support the detection of entirely new, unknown malware families. Unfortunately, few proposed machine learning based malware detection methods have achieved the low false positive rates required to deliver deployable detectors. In this paper we a deep neural network malware classifier that achieves a usable detection rate at an extremely low false positive rate and scales to real world training example volumes on commodity hardware. Specifically, we show that our system achieves a 95% detection rate at 0.1% false positive rate (FPR), based on more than 400,000 software binaries sourced directly from our customers and internal malware databases. We achieve these results by directly learning on all binaries, without any filtering, unpacking, or manually separating binary files into categories. Further, we confirm our false positive rates directly on a live stream of files coming in from Invincea's deployed endpoint solution, provide an estimate of how many new binary files we expected to see a day on an enterprise network, and describe how that relates to the false positive rate and translates into an intuitive threat score. Our results demonstrate that it is now feasible to quickly train and deploy a low resource, highly accurate machine learning classification model, with false positive rates that approach traditional labor intensive signature based methods, while also detecting previously unseen malware.

연구 동기 및 목표

높은 탐지율과 최소한의 가짜 양성률을 달성하는 확장성 있고 자원 소비가 적은 악성코드 탐지 시스템을 개발하기 위해.
압축 해제나 패커 유형에 따른 필터링과 같은 수작업 전처리가 필요 없도록 하기 위해.
실시간 파일 스트림을 처리하는 실생활 기업 환경에서 머신러닝 모델을 구현하기 위해.
고객 엔드포인트에서의 실시간 트래픽을 포함한 실제 데이터에서 모델 성능을 검증하기 위해.
딥러닝 기반 기술이 기존 시그니처 기반 방법과 동등하거나 이를 초월할 수 있으며, 이전에 본 적 없는 악성코드도 탐지할 수 있음을 입증하기 위해.

제안 방법

1024바이트 윈도우를 바이너리에 슬라이딩하면서 256바이트 간격으로 이동하여 2차원 바이트 엔트로피 히스토GRAM을 추출한다.
각 윈도우에서 밑수 2 엔트로피와 바이트 빈도를 계산하고, 엔트로피(0–8)와 바이트(0–255) 값에 대해 16×16 히스토GRAM을 생성한다.
히스토GRAM의 행을 연결하여 고정 길이의 특징 벡터로 만들고, 두 개의 은닉층을 가진 딥 네ural 네트워크에 입력한다.
패킹, 오브스큐레이션, 기타 바이너리 특성에 따라 사전 분류 없이 원시 바이너리에서 직접 학습하는 딥 네ural 네트워크 분류기 학습.
원시 신경망 출력을 이해하기 쉬운 위협 점수로 변환하기 위해 베이지안 校정을 적용한다. 이는 악성코드 발생 확률에 가까운 해석 가능성을 제공한다.
증분 학습과 압축된 모델 가중치를 활용해 저성능 하드웨어에서 실시간 배포 및 효율적인 추론을 지원한다.

실험 결과

연구 질문

RQ1원시 바이너리에서 직접 학습한 딥 네ural 네트워크가 낮은 가짜 양성률로 높은 탐지 정확도를 달성할 수 있는가?
RQ2슬라이딩 윈도우에서 유도된 2차원 바이너리 특징이 수작업 특징 엔지니어링 없이도 악성코드 탐지에 유의미한 패턴을 포착할 수 있는가?
RQ3실생활 기업 엔드포인트에서 온 레이블이 없는 파일 스트림에서 모델의 성능은 어떠한가?
RQ4일반 하드웨어에서 낮은 가짜 양성률을 유지하면서 대규모 학습에 확장 가능한가?
RQ5재학습 없이도 이전에 본 적 없는 악성코드 패밀리에 대해 얼마나 잘 일반화되는가?

주요 결과

고객 및 내부 악성코드 데이터베이스에서 수집한 40만 개 이상의 실제 소프트웨어 바이너리에서 0.1%의 가짜 양성률에서 95%의 탐지율을 달성했다.
가짜 양성률은 인비네이아의 배포된 엔드포인트 솔루션에서 온 실시간 파일 스트림을 직접 검증하여 실제 환경에서의 신뢰성을 확인했다.
모델은 단일 GPU만을 사용하여 학습 및 배포되어 일반 하드웨어에서의 확장성을 입증했다.
압축 해제나 패커 유형에 따른 필터링과 같은 수작업 전처리가 전혀 필요 없어, 모든 바이너리에서 직접 학습이 가능해졌다.
시스템은 인비네이아의 클라우드 보안 분석 플랫폼에 성공적으로 통합되어 수천 개의 고객 엔드포인트에서 악성코드 탐지에 지속적으로 사용되고 있다.
베이지안 校정을 거친 위협 점수는 악성코드 발생 가능성과 유사한 직관적인 해석 가능성을 제공하여 운영적 사용성 향상을 이뤘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.