QUICK REVIEW

[논문 리뷰] A Benchmark API Call Dataset for Windows PE Malware Classification

Ferhat Özgür Çatak, Ahmet Faruk Yazı|arXiv (Cornell University)|2019. 05. 06.

Advanced Malware Detection Techniques참고 문헌 10인용 수 23

한 줄 요약

이 논문은 다양한 가족에 속한 7,107개의 Windows PE 악성코드 샘플로 구성된 벤치마크 데이터셋을 소개한다. 이 데이터셋은 샌드박스 환경에서 실행하여 순차적인 API 호출 기록을 확보하였다. 저자들은 메타모픽 행동에도 불구하고 악성코드 가족 간에 일관되고 상관관계가 있는 API 호출 패턴을 보임을 입증하였으며, 이는 기계학습 모델을 활용한 행동 기반 분류에 효과적임을 시사한다. 데이터셋은 악성코드 분석 연구의 발전을 위해 공개되어 있다.

ABSTRACT

The use of operating system API calls is a promising task in the detection of PE-type malware in the Windows operating system. This task is officially defined as running malware in an isolated sandbox environment, recording the API calls made with the Windows operating system and sequentially analyzing these calls. Here, we have analyzed 7107 different malicious software belonging to various families such as virus, backdoor, trojan in an isolated sandbox environment and transformed these analysis results into a format where different classification algorithms and methods can be used. First, we'll explain how we got the malware, and then we'll explain how we've got these software bundled into families. Finally, we will describe how to perform malware classification tasks using different computational methods for the researchers who will use the data set we have created.

연구 동기 및 목표

API 호출 시퀀스 기반 악성코드 분류 모델 평가를 위한 표준화된 벤치마크 데이터셋의 부족 문제를 해결하기 위해.
대규모이고 다양한 Windows PE 악성코드 샘플을 수집하고, 가족 분류 레이블을 부여하여 체계화하기 위해.
연구자들이 실제 세계의 행동 기반 악성코드 패턴을 기반으로 기계학습 모델을 훈련하고 테스트할 수 있도록 하기 위해.
코드 가시화 및 메타모픽 행동에도 불구하고 API 호출 시퀀스의 일관성이 악성코드 가족 간에 유지되는지 조사하기 위해.
연구 공동체가 접근 가능하고 재현 가능한 데이터셋을 제공하여 행동 기반 악성코드 탐지 분야의 연구를 가속화하기 위해.

제안 방법

악성코드 샘플은 GitHub 등 공개 자료에서 수집되었으며, 해시 매칭을 통한 해시 일치를 통해 VirusTotal을 이용해 가족 분류를 검증하였다.
각 샘플은 Cuckoo 샌드박스 환경에서 실행되어 실행 중 모든 Windows API 호출을 기록하였다.
API 호출 시퀀스는 추출되고 정규화되었으며, 후속 분류 작업을 위해 시간 순서를 유지하였다.
VirusTotal의 가족 레이블을 기반으로 악성코드 가족을 그룹화하였으며, 6개의 고유한 카테고리로 나뉘었다: 다운로더, 웜, 스파이웨어, 광고 소프트웨어, 드롭퍼, 바이러스.
각 악성코드 가정 내에서 자주 함께 발생하는 호출 쌍을 식별하기 위해 API 호출 쌍 간의 상관관계 분석을 수행하였다.
연구 공동체의 접근성과 재현 가능성을 확보하기 위해 데이터셋을 GitHub에 공개하였다.

실험 결과

연구 질문

RQ1Windows PE 악성코드의 API 호출 시퀀스 기반 벤치마크 데이터셋은 악성코드 분류 모델의 평가 및 비교를 향상시킬 수 있는가?
RQ2코드 가시화 및 메타모픽 행동에도 불구하고, 다양한 악성코드 가족은 API 호출 시퀀스에서 고유하고 일관된 패턴을 보이는가?
RQ3특정 악성코드 가정 내에서 가장 강하게 상관관계가 있는 API 호출 쌍은 무엇이며, 이러한 패턴은 분류 정확도 향상에 기여할 수 있는가?
RQ4메타모픽 악성코드는 변종 간에도 API 호출 시퀀스에서 행동 일관성을 어느 정도 유지하는가?
RQ5제안된 데이터셋은 LSTMs와 같은 시퀀스 기반 모델 개발을 지원할 수 있는가?

주요 결과

데이터셋은 6개의 고유한 가족에 걸쳐 총 7,107개의 고유한 악성코드 샘플을 포함하며, 샌드박스 실행을 통한 포괄적인 API 호출 로그를 보유하고 있다.
각 악성코드 가정 내에서 명백한 API 호출 상관관계가 관찰되었으며, 일부 쌍은 완전한 상관관계(r = 1.0)를 보였다. 예를 들어, 광고 소프트웨어에서는 'getfileversioninfosizew'와 'findresourcew' 사이에 완전한 상관관계가 있었다.
드롭퍼 및 웜 가족은 5~10개의 높은 상관관계를 보이는 API 호출을 보이며, 일관된 행동 패턴을 나타내었다.
가장 자주 함께 발생하는 API 호출 쌍은 'ntcreatethreadex'와 'ntsetinformationfile', 'ntprotectvirtualmemory'와 'setwindowshookexa', 'ntcreatesection'과 'writeprocessmemory'였다.
이 데이터셋은 시퀀스 기반 모델의 효과적인 훈련을 가능하게 하였으며, LSTM 기반 악성코드 탐지 시스템에 성공적으로 적용된 증거가 있었다.
연구는 메타모픽 가시화에도 불구하고 악성코드 가정이 일관된 API 호출 시퀀스를 통해 탐지 가능한 행동 서명을 유지함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.