Skip to main content
QUICK REVIEW

[논문 리뷰] Anomaly Detection in Bitcoin Network Using Unsupervised Learning Methods

Thai Pham, Steven Lee|arXiv (Cornell University)|2016. 11. 12.
Anomaly Detection Techniques and Applications참고 문헌 7인용 수 68
한 줄 요약

이 논문은 2009년부터 2013년 4월까지의 비트코인 거래 데이터를 기반으로 사용자 기반 및 거래 기반 그래프 표현을 사용하여 k-means 군집화, 마할라노비스 거리, 비지도 SVM를 활용한 비지도 이상 탐지 프레임워크를 제안한다. 이는 이중 평가 지표 0.14415를 달성하며 알려진 도난 및 손실 사고를 성공적으로 탐지하여 레이블이 없는 환경에서도 이상 사용자와 거래를 식별하는 데 효과적임을 입증한다.

ABSTRACT

The problem of anomaly detection has been studied for a long time. In short, anomalies are abnormal or unlikely things. In financial networks, thieves and illegal activities are often anomalous in nature. Members of a network want to detect anomalies as soon as possible to prevent them from harming the network's community and integrity. Many Machine Learning techniques have been proposed to deal with this problem; some results appear to be quite promising but there is no obvious superior method. In this paper, we consider anomaly detection particular to the Bitcoin transaction network. Our goal is to detect which users and transactions are the most suspicious; in this case, anomalous behavior is a proxy for suspicious behavior. To this end, we use three unsupervised learning methods including k-means clustering, Mahalanobis distance, and Unsupervised Support Vector Machine (SVM) on two graphs generated by the Bitcoin transaction network: one graph has users as nodes, and the other has transactions as nodes.

연구 동기 및 목표

  • 레이블이 없는 데이터를 사용하여 비트코인 네트워크 내 이상 사용자 및 거래를 탐지하기 위해.
  • 익명 금융 네트워크에서 비정상적인 행동을 식별하는 데 있어 비지도 학습 방법의 성능을 평가하기 위해.
  • 사용자 중심 및 거래 중심의 두 가지 그래프 표현을 기반으로 k-means, 마할라노비스 거리, 비지도 SVM 등의 다양한 비지도 기법을 비교하기 위해.
  • 비트코인 네트워크 내 알려진 도난 및 손실 사례와 비교하여 탐지 결과를 검증하기 위해.
  • 이상 거래가 이상 사용자와 연결되어 있는지 확인하여 방법의 일관성을 평가하기 위해.

제안 방법

  • 2009년부터 2013년 4월까지의 비트코인 거래 데이터를 기반으로 사용자를 노드로 하는 그래프(사용자 그래프)와 거래를 노드로 하는 그래프(거래 그래프)를 각각 구축한다.
  • 도착도, 군집 계수, 평균 거래 가치, 시간 간격, 잔액, 활성 지속 시간 등 12개의 특징을 각 노드에서 추출하며, 계산 효율성을 높이기 위해 특징 집합을 축소한다.
  • 두 그래프 유형 모두 k=7로 k-means 군집화를 적용하여 특징 유사도 기반으로 노드를 군집화하고 중심에서 멀리 떨어진 이질점을 이상치로 식별한다.
  • 각 노드가 전체 분포에서 통계적 거리(마할라노비스 거리)를 기반으로 얼마나 떨어져 있는지를 측정하여 극단적인 점을 이상치로 식별한다.
  • 정상 데이터 포인트 주변에 결정 경계를 학습하기 위해 비지도 ν-SVM(ν≈0.005)를 적용하고, 경계 외부에 있는 점들을 이상치로 표시한다.
  • 이중 평가 지표를 사용하여 성능을 평가하며, 이는 알려진 이상 탐지 정확도와 사용자 수준 및 거래 수준의 결과 일관성을 통합한 지표이다.

실험 결과

연구 질문

  • RQ1비지도 학습 방법이 레이블이 없는 환경에서 비트코인 네트워크 내 이상 사용자 및 거래를 효과적으로 탐지할 수 있는가?
  • RQ2k-means 군집화, 마할라노비스 거리, 비지도 SVM는 비트코인 네트워크에서 비정상적인 행동을 식별하는 데 어떻게 비교될 수 있는가?
  • RQ3거래 수준에서 탐지된 이상 현상이 이상 사용자와 관련이 있는가? 이는 방법의 일관성을 뒷받침하는가?
  • RQ4이러한 방법들은 비트코인 네트워크 내 알려진 도난 또는 손실 사례를 어느 정도 식별할 수 있는가?
  • RQ5제안된 평가 프레임워크는 다양한 방법 간의 탐지 정확도 측정에 있어 어떤 성능을 보이는가?

주요 결과

  • 비지도 SVM 방법이 이중 평가 지표 0.14415를 기록하여 마할라노비스 거리 방법(0.025633)보다 유의미하게 높은 탐지 정확도를 보였다.
  • 마할라노비스 거리 방법은 2011년 6월에 발생한 약 4,000 BTC가 한 주소로 유입된 알려진 도난 사례를 탐지했다.
  • 비지도 SVM 방법은 해시 함수 결함으로 인해 사용자가 2,600 BTC 이상을 상실한 것으로 알려진 2011년 10월 손실 사례를 탐지했다.
  • 마할라노비스 거리 및 SVM 방법이 탐지한 이상 현상은 특징 공간도의 외곽선에 위치해 있어 극단성과 이상치로서의 타당성을 확인했다.
  • 상위 100개 이상 이격된 노드에 대한 평균 마할라노비스 거리 비율은 거래 그래프에서 0.8277, 사용자 그래프에서 0.7619로 나타나 이상 현상의 강한 분리가 이루어졌음을 시사한다.
  • 이상 거래가 이상 사용자와 연결되어 있음을 확인함으로써 방법의 일관성이 입증되었으며, 이는 이중 그래프 접근 방식의 신뢰성에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.