[论文解读] Anomaly Detection in Bitcoin Network Using Unsupervised Learning Methods
该论文提出了一种基于k均值聚类、马氏距离和无监督SVM的无监督异常检测框架,用于比特币网络,其用户和交易图表示方法在用户和交易层面实现了0.14415的双评估指标,并成功检测到已知的盗窃和损失事件,证明了其在无标注数据下识别可疑用户和交易的有效性。
The problem of anomaly detection has been studied for a long time. In short, anomalies are abnormal or unlikely things. In financial networks, thieves and illegal activities are often anomalous in nature. Members of a network want to detect anomalies as soon as possible to prevent them from harming the network's community and integrity. Many Machine Learning techniques have been proposed to deal with this problem; some results appear to be quite promising but there is no obvious superior method. In this paper, we consider anomaly detection particular to the Bitcoin transaction network. Our goal is to detect which users and transactions are the most suspicious; in this case, anomalous behavior is a proxy for suspicious behavior. To this end, we use three unsupervised learning methods including k-means clustering, Mahalanobis distance, and Unsupervised Support Vector Machine (SVM) on two graphs generated by the Bitcoin transaction network: one graph has users as nodes, and the other has transactions as nodes.
研究动机与目标
- 在无标注数据的情况下检测比特币网络中的异常用户和交易。
- 评估无监督学习方法在匿名金融网络中识别可疑行为的性能。
- 在两种图表示形式(以用户为中心和以交易为中心)上,对比k均值聚类、马氏距离和无监督SVM等多种无监督技术的性能。
- 通过已知的比特币网络盗窃和损失事件验证检测结果。
- 通过检查异常交易是否与异常用户相关联,评估方法的一致性。
提出的方法
- 基于2009年至2013年4月的比特币交易数据,构建两种图表示:一种以用户为节点(用户图),另一种以交易为节点(交易图)。
- 为每个节点提取12个特征,包括度数、聚类系数、平均交易金额、时间间隔、余额和活跃时长,并通过减少特征集以提升计算效率。
- 对两种图类型均使用k=7的k均值聚类,基于特征相似性对节点进行分组,并识别远离质心的离群点。
- 使用马氏距离度量每个节点与整体分布的统计距离,将极端点识别为异常。
- 采用无监督ν-SVM(ν≈0.005)学习围绕正常数据点的决策边界,并将边界外的点标记为异常。
- 通过结合检测已知异常的精确率与用户级与交易级结果之间的一致性,使用双指标评估方法性能。
实验结果
研究问题
- RQ1无监督学习方法是否能在无标注数据下有效检测比特币网络中的异常用户和交易?
- RQ2k均值聚类、马氏距离和无监督SVM在识别比特币网络可疑行为方面表现如何比较?
- RQ3在交易层面检测到的异常是否与可疑用户一致,从而体现方法的一致性?
- RQ4这些方法在多大程度上能够识别比特币网络中已知的盗窃或损失事件?
- RQ5所提出的评估框架在衡量不同方法检测准确率方面的表现如何?
主要发现
- 无监督SVM方法实现了0.14415的双评估指标,显著优于马氏距离方法(0.025633),表明其检测准确率更高。
- 马氏距离方法检测到一起2011年6月发生的已知盗窃事件,涉及超过4,000 BTC被汇入单一地址。
- 无监督SVM方法检测到一起2011年10月发生的已知损失事件,与哈希函数损坏有关,导致一名用户损失超过2,600 BTC。
- 马氏距离与SVM方法检测到的异常点均位于特征空间图的外边缘,证实其极端性与作为离群点的合理性。
- 在前100个离群点中,其平均马氏距离与质心的距离比值为:交易图0.8277,用户图0.7619,表明异常点与正常点有明显分离。
- 该方法表现出一致性,即检测到的异常交易与异常用户相关联,支持了双图方法的可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。