[논문 리뷰] Automated Dynamic Analysis of Ransomware: Benefits, Limitations and use for Detection
EldeRan은 완전한 패밀리 세트를 필요로 하지 않고도 높은 정확도로 랜섬웨어를 탐지하고 새로운 변종을 식별하기 위해 동적 샌드박스 분석, Mutual Information에 의한 특징 선택, 그리고 정규화 로지스틱 회귀를 사용한다.
Recent statistics show that in 2015 more than 140 millions new malware samples have been found. Among these, a large portion is due to ransomware, the class of malware whose specific goal is to render the victim's system unusable, in particular by encrypting important files, and then ask the user to pay a ransom to revert the damage. Several ransomware include sophisticated packing techniques, and are hence difficult to statically analyse. We present EldeRan, a machine learning approach for dynamically analysing and classifying ransomware. EldeRan monitors a set of actions performed by applications in their first phases of installation checking for characteristics signs of ransomware. Our tests over a dataset of 582 ransomware belonging to 11 families, and with 942 goodware applications, show that EldeRan achieves an area under the ROC curve of 0.995. Furthermore, EldeRan works without requiring that an entire ransomware family is available beforehand. These results suggest that dynamic analysis can support ransomware detection, since ransomware samples exhibit a set of characteristic features at run-time that are common across families, and that helps the early detection of new variants. We also outline some limitations of dynamic analysis for ransomware and propose possible solutions.
연구 동기 및 목표
- 동적 행동 특성을 분석하여 랜섬웨어를 조기에 식별할 수 있는지 평가한다.
- 랜섬웨어 탐지를 위한 가장 정보성이 높은 동적 특징을 식별한다.
- 이 작업에서 Regularized Logistic Regression을 SVM 및 Naive Bayes와 비교한다.
- 새로운 랜섬웨어 패밀리 탐지 능력을 평가하고 VirusTotal와 비교한다.
제안 방법
- 샌드박스(Cuckoo Sandbox)에서 샘플의 동적 분석을 통해 특징을 수집한다: Windows API 호출, 레지스트리 작업, 파일 시스템 작업, 파일 확장자별 작업, 디렉터리 작업, 드롭된 파일, 문자열들.
- 대규모 특징 집합에서 가장 판별력이 높은 특징을 선택하기 위해 Mutual Information를 사용한다.
- 배치 경사 하강법과 교차 엔트로피 손실로 학습된 L2 정규화 로지스틱 회귀(Regularized Logistic Regression) 분류.
- 사용자 PC에서 학습된 분류기를 사용한 온라인 실시간 탐지와, 샌드박스 데이터세트에서의 오프라인 학습.
- 데이터세트 구성: 11개 패밀리에 걸친 582개의 란섬웨어 샘플과 942개의 굿웨어 샘플; Windows XP SP2 샌드박스에서 샘플당 30초간 분석; 특징은 MI로 상위 400개로 축소.
실험 결과
연구 질문
- RQ1초기 설치 단계에서 수집된 제한된 동적 특징 세트를 사용하여 랜섬웨어를 정확하게 탐지할 수 있는가?
- RQ2이 란섬웨어 탐지 작업에서 Regularized Logistic Regression은 SVM 및 Naive Bayes와 어떻게 비교되는가?
- RQ3전체 패밀리 가용성을 요구하지 않고 새롭고 보지 못한 랜섬웨어 패밀리를 탐지할 수 있는가?
- RQ4랜섬웨어 탐지에서 VirusTotal 레이블과 비교했을 때 EldeRan의 성능은 어떠한가?
주요 결과
- AUC 0.995 on the ransomware vs goodware dataset.
- EldeRan의 평균 오류율은 2.4%, 반면 VirusTotal은 5.6%이다.
- Known samples 탐지율 96.3%.
- 새로운 미지의 랜섬웨어 패밀리에 대한 평균 탐지율 93.3%.
- 정규화 로지스틱 회귀가 SVM보다 약간 더 우수하고 Naive Bayes보다 우수하며; MI 기반의 상위 400개 특징 선택이 성능과 간결함의 균형을 이룬다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.