[论文解读] IcoRating: A Deep-Learning System for Scam ICO Identification
IcoRating 是一种深度学习系统,通过分析多源数据(包括白皮书、GitHub 仓库、团队资料和网站)并结合自然语言处理与监督学习技术,识别欺诈性初始代币发行(ICO)。该系统在检测欺诈项目方面实现了 0.83 的精确率,提供了一种客观、自动化且难以操纵的替代方案,相较于人工维护的评级系统更具优势。
Cryptocurrencies (or digital tokens, digital currencies, e.g., BTC, ETH, XRP, NEO) have been rapidly gaining ground in use, value, and understanding among the public, bringing astonishing profits to investors. Unlike other money and banking systems, most digital tokens do not require central authorities. Being decentralized poses significant challenges for credit rating. Most ICOs are currently not subject to government regulations, which makes a reliable credit rating system for ICO projects necessary and urgent. In this paper, we introduce IcoRating, the first learning--based cryptocurrency rating system. We exploit natural-language processing techniques to analyze various aspects of 2,251 digital currencies to date, such as white paper content, founding teams, Github repositories, websites, etc. Supervised learning models are used to correlate the life span and the price change of cryptocurrencies with these features. For the best setting, the proposed system is able to identify scam ICO projects with 0.83 precision. We hope this work will help investors identify scam ICOs and attract more efforts in automatically evaluating and analyzing ICO projects.
研究动机与目标
- 为应对加密货币市场中 ICO 失败率和欺诈率较高的紧迫问题,解决缺乏客观、自动化信用评级系统的需求。
- 开发一种基于机器学习的系统,相较于传统人工设计的评级系统,能减少人为偏见,并使恶意行为者更难操纵。
- 分析多样化的 ICO 数据源(包括白皮书、GitHub、团队信息和网站)以识别欺诈项目潜在的细微警示信号。
- 通过在造成重大财务损失前早期识别高风险或欺诈性 ICO,提升投资者决策质量。
- 推动学术界与公共部门对 ICO 质量的自动化、可靠且可解释评估方法的进一步研究。
提出的方法
- 系统使用自然语言处理(NLP)技术,通过分层长短期记忆网络(LSTM)模型与潜在狄利克雷分布(LDA)主题建模,从 ICO 白皮书中提取并表示文本特征。
- 将来自多个来源(如白皮书、GitHub、团队网站等)的结构化与非结构化数据整合为模型的统一输入表示。
- 使用监督学习训练具有多层非线性结构的深度神经网络,基于项目特征及其后续价格表现,预测某个 ICO 是否为欺诈项目。
- 应用显著性分析方法(一阶导数法与特征擦除法),解释模型决策过程,识别对欺诈预测影响最大的特征或主题。
- 模型计算单个特征与 LDA 主题的影响得分,以对风险因素的贡献程度进行排序,支持对风险因素的定性分析。
- 系统在包含 2,251 个 ICO 项目的数据集上进行训练与评估,标签基于其在 6 个月和 12 个月内的价格变动生成。
实验结果
研究问题
- RQ1深度学习模型能否通过分析来自白皮书、GitHub、团队资料和网站的多源文本与结构化数据,有效识别欺诈性 ICO?
- RQ2不同数据源(如白皮书与 GitHub)在模型识别欺诈性 ICO 方面的贡献程度如何?
- RQ3显著性分析与特征擦除等可解释性技术在多大程度上能揭示哪些主题或特征最能指示欺诈行为?
- RQ4所提出的系统在欺诈检测方面的精确率与 F1 得分表现如何?与人工设计的系统相比有何差异?
- RQ5某些主题(如游戏、赌博)是否与欺诈性 ICO 显著相关?这种关联性能否通过模型可解释性分析进行量化?
主要发现
- 所提出的 IcoRating 系统在识别欺诈性 ICO 项目方面实现了 0.83 的精确率与 0.80 的 F1 得分,表现出强劲的预测性能。
- 基于显著性分析,白皮书与 GitHub 仓库被确定为影响模型欺诈预测最关键的显著特征。
- LDA 主题建模显示,与游戏、赌博和娱乐相关的 ICO 项目显著更可能为欺诈项目,其影响得分分别为 -1.62、-1.23 和 -1.17。
- 特征擦除方法验证了去除关键特征(如白皮书内容或 GitHub 活动)会显著降低模型对某 ICO 是否为欺诈的判断置信度,从而验证了模型的可解释性。
- 超过 29% 的 ICO 项目在六个月内价格跌幅超过 80%,一年内该比例达 39.6%,凸显了自动化检测系统的重要性。
- 由于采用黑箱、数据驱动的训练过程,该系统在客观性与抗操纵性方面优于人工设计的评级系统。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。