Skip to main content
QUICK REVIEW

[論文レビュー] Anomaly Detection in Bitcoin Network Using Unsupervised Learning Methods

Thai Pham, Steven Lee|arXiv (Cornell University)|Nov 12, 2016
Anomaly Detection Techniques and Applications参考文献 7被引用数 68
ひとこと要約

本稿では、k-meansクラスタリング、マハラノビス距離、およびユーザーおよび取引ベースのグラフ表現を用いた非教師ありSVMを組み合わせた、暗号通貨ネットワークにおける不審行動検出フレームワークを提案する。この手法は、0.14415の二重評価指標を達成し、既知の盗難および損失事例を効果的に検出でき、ラベルなしデータでも不審なユーザーおよび取引を特定する有効性を示している。

ABSTRACT

The problem of anomaly detection has been studied for a long time. In short, anomalies are abnormal or unlikely things. In financial networks, thieves and illegal activities are often anomalous in nature. Members of a network want to detect anomalies as soon as possible to prevent them from harming the network's community and integrity. Many Machine Learning techniques have been proposed to deal with this problem; some results appear to be quite promising but there is no obvious superior method. In this paper, we consider anomaly detection particular to the Bitcoin transaction network. Our goal is to detect which users and transactions are the most suspicious; in this case, anomalous behavior is a proxy for suspicious behavior. To this end, we use three unsupervised learning methods including k-means clustering, Mahalanobis distance, and Unsupervised Support Vector Machine (SVM) on two graphs generated by the Bitcoin transaction network: one graph has users as nodes, and the other has transactions as nodes.

研究の動機と目的

  • ラベルなしデータを用いてビットコインネットワークにおける不審なユーザーおよび取引を検出すること。
  • 匿名の金融ネットワークにおける不審行動を同定する非教師あり学習手法の性能を評価すること。
  • ユーザー中心および取引中心の2種類のグラフ表現を用いて、k-means、マハラノビス距離、非教師ありSVMの複数の非教師あり手法を比較すること。
  • 検出結果をビットコインネットワークにおける既知の盗難および損失事例と照合して妥当性を検証すること。
  • 不審な取引が不審なユーザーに関連しているかどうかを確認することで、手法の一貫性を評価すること。

提案手法

  • 2009年から2013年4月までのビットコイン取引データを用いて、ユーザーをノードとする(ユーザー・グラフ)および取引をノードとする(取引・グラフ)2種類のグラフ表現を構築する。
  • 次数、クラスタ係数、平均取引額、時間間隔、残高、活動期間などの12の特徴量をノードごとに抽出し、計算効率を高めるために特徴量の縮小を実施する。
  • 両方のグラフタイプに対してk=7のk-meansクラスタリングを適用し、特徴量の類似度に基づいてノードをグループ化し、重心から離れた外れ値を特定する。
  • マハラノビス距離を用いて、各ノードが全体の分布からの統計的距離を測定し、極端な点を異常と特定する。
  • 非教師ありν-SVM(ν≈0.005)を用い、正常データポイントの周囲に意思決定境界を学習し、境界外の点を異常とマークする。
  • 不審な事象の検出精度とユーザー・レベルおよび取引・レベルの結果の一貫性を組み合わせた二重指標を用いて、手法を評価する。

実験結果

リサーチクエスチョン

  • RQ1非教師あり学習手法は、ラベルなしデータを用いてビットコインネットワークにおける不審なユーザーおよび取引を効果的に検出できるか?
  • RQ2k-meansクラスタリング、マハラノビス距離、非教師ありSVMは、ビットコインにおける不審なネットワーク行動を同定する上で、どのように比較されるか?
  • RQ3取引レベルで検出された異常は、不審なユーザーと一致するか。これは手法の一貫性を示唆するか?
  • RQ4これらの手法は、ビットコインネットワークにおける既知の盗難または損失事例をどの程度特定できるか?
  • RQ5提案された評価フレームワークは、異なる手法の検出精度を測定する上で、どの程度の性能を示すか?

主な発見

  • 非教師ありSVM手法が0.14415の二重評価指標を達成し、マハラノビス距離手法(0.025633)を顕著に上回り、より高い検出精度を示した。
  • マハラノビス距離手法は、2011年6月に発生した1つの既知の盗難(4,000 BTC以上が1つのアドレスに集中)を検出できた。
  • 非教師ありSVM手法は、2011年10月に発生した1つの既知の損失事例(ハッシュ関数のバグにより2,600 BTC以上が失われた)を検出できた。
  • マハラノビス距離およびSVM手法で検出された異常は、特徴空間プロットの外縁部に位置しており、外れ値としての極端さと妥当性が裏付けられた。
  • 上位100件の外れ値のマハラノビス距離の重心からの平均比は、取引グラフで0.8277、ユーザー・グラフで0.7619であり、異常と正常の分離が明確に示された。
  • 不審な取引が不審なユーザーに関連していることから、両手法が一貫性を示しており、二重グラフアプローチの信頼性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。