Skip to main content
QUICK REVIEW

[논문 리뷰] Microsoft Malware Classification Challenge

Royi Ronen, Marian Radu|arXiv (Cornell University)|2018. 02. 22.
Advanced Malware Detection Techniques참고 문헌 32인용 수 289
한 줄 요약

이 논문은 9개 패밀리에 걸친 20k개 이상의 악성코드 샘플에 대한 역어셈블리 및 바이트코드의 반 테라바이트 규모 컬렉션인 Microsoft Malware Classification Challenge 데이터셋을 소개하고, 데이터셋이 악성코드 분류 연구 및 Kaggle 대회에서 벤치마크로 어떻게 사용되어 왔는지에 대해 검토한다.

ABSTRACT

The Microsoft Malware Classification Challenge was announced in 2015 along with a publication of a huge dataset of nearly 0.5 terabytes, consisting of disassembly and bytecode of more than 20K malware samples. Apart from serving in the Kaggle competition, the dataset has become a standard benchmark for research on modeling malware behaviour. To date, the dataset has been cited in more than 50 research papers. Here we provide a high-level comparison of the publications citing the dataset. The comparison simplifies finding potential research directions in this field and future performance evaluation of the dataset.

연구 동기 및 목표

  • 대규모에서 다형성 악성코드를 효율적으로 분류할 필요성을 제기한다.
  • 연구 및 벤치마킹을 가능하게 하기 위해 데이터셋과 그 구성요소를 설명한다.
  • 향후 연구를 이끄는 데 있어 데이터셋이 공개 논문과 경쟁에서 어떻게 활용되어 왔는지 요약한다.

제안 방법

  • IDA 디스어셈블리의 원시 헥스 내용과 메타데이터를 포함한 데이터셋 구성 설명.
  • 9개 악성코드 패밀리와 해당 학습 샘플 수를 정의한다.
  • 악성코드 동작 모델링 및 Kaggle 대회의 벤치마크로서의 데이터셋 역할을 설명한다.
  • 데이터셋을 인용한 연구들의 고수준 문헌 비교와 그 초점 분야를 제공한다.

실험 결과

연구 질문

  • RQ1Microsoft 악성코드 데이터셋은 얼마나 크고 다양하며 샘플은 어떻게 9개 패밀리로 라벨링되었는가?
  • RQ2이 데이터셋을 사용하여 어떤 종류의 특징 및 연구 방향이 탐구되었는가(예: 특징 공학, 확장성, 견고성, 딥러닝 등)?
  • RQ3문헌에서 이 데이터셋이 이후의 악성코드 분류 연구 및 벤치마크에 어떤 영향을 미쳤는가?

주요 결과

  • 데이터셋은 압축 해제 시 약 0.5테라바이트이며 20K개가 넘는 샘플에 대한 디스어셈블리 기반 메타데이터와 원시 이진 콘텐츠를 포함한다.
  • 데이터셋에는 9개의 악성코드 패밀리가 있으며 각 패밀리에 특정 학습 샘플 수와 라벨 매핑이 있다(예: Ramnit 1541, Lollipop 2478, Kelihos_ver3 2942, Vundo 475, Simda 42, Tracur 751, Kelihos_ver1 398, Obfuscator.ACY 1228, Gatak 1013).
  • 데이터셋은 2015년 출시 이후 50편이 넘는 연구 논문에서 표준 벤치마크로 인용되고 있다.
  • 데이터셋을 사용하는 출판물은 특징 공학, 특징 융합, 확장성, 견고성, 분류 기법, 딥러닝, 악성코드 저자 식별 등을 포함한 다양한 기법을 다룬다.
  • 이 연구는 인용된 논문을 기여도에 따라 열거하고 군집화하여 향후 연구 방향과 성능 평가의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.