QUICK REVIEW

[논문 리뷰] IcoRating: A Deep-Learning System for Scam ICO Identification

Shuqing Bian, Zhenpeng Deng|arXiv (Cornell University)|2018. 03. 08.

Blockchain Technology Applications and Security참고 문헌 27인용 수 27

한 줄 요약

IcoRating은 자연어 처리(NLP)와 지도 학습을 사용하여 화이트페이퍼, 깃허브 리포지터리, 팀 프로필, 웹사이트 등 다중 소스 데이터를 분석함으로써 사기성 초기 코인 오퍼링(ICOs)을 식별하는 딥러닝 시스템이다. 이 시스템은 사기 프로젝트를 탐지하는 데 있어 정밀도 0.83를 달성하여 인간이 수작업으로 정리한 평가 체계에 비해 객관적이고 자동화되며 조작하기 어려운 대안을 제공한다.

ABSTRACT

Cryptocurrencies (or digital tokens, digital currencies, e.g., BTC, ETH, XRP, NEO) have been rapidly gaining ground in use, value, and understanding among the public, bringing astonishing profits to investors. Unlike other money and banking systems, most digital tokens do not require central authorities. Being decentralized poses significant challenges for credit rating. Most ICOs are currently not subject to government regulations, which makes a reliable credit rating system for ICO projects necessary and urgent. In this paper, we introduce IcoRating, the first learning--based cryptocurrency rating system. We exploit natural-language processing techniques to analyze various aspects of 2,251 digital currencies to date, such as white paper content, founding teams, Github repositories, websites, etc. Supervised learning models are used to correlate the life span and the price change of cryptocurrencies with these features. For the best setting, the proposed system is able to identify scam ICO projects with 0.83 precision. We hope this work will help investors identify scam ICOs and attract more efforts in automatically evaluating and analyzing ICO projects.

연구 동기 및 목표

cryptocurrency 시장에서의 높은 실패율과 사기율로 인해 규제되지 않은 ICO에 대한 객관적이고 자동화된 신용 평가 체계가 급증하는 필요성을 해결하기 위해.
기존 인간이 설계한 평가 체계에 비해 인간의 편향을 줄이고 악성 행위자가 조작하기 어려운 기계학습 기반 시스템을 개발하기 위해.
화이트페이퍼, 깃허브, 팀 정보, 웹사이트 등 다양한 ICO 데이터 소스를 분석하여 사기 프로젝트의 미묘한 경고 신호를 탐지하기 위해.
투자자의 의사결정을 향상시키기 위해 사기성 또는 고위험 ICO를 재정적 손실이 발생하기 이르기 전에 조기에 식별할 수 있도록 하기 위해.
ICO 품질에 대한 자동화되고 신뢰성 있으며 해석 가능한 평가 방법에 대한 향후 학술 및 공공부문 연구를 촉진하기 위해.

제안 방법

시스템은 계층적 LSTM 모델과 LDA 토픽 모델링을 사용하여 자연어 처리(NLP)를 통해 화이트페이퍼에서 텍스트적 특징을 추출하고 표현한다.
다양한 소스(화이트페이퍼, 깃허브, 팀 웹사이트 등)의 구조적 및 비구조적 데이터를 통합하여 모델의 통합 입력 표현으로 변환한다.
특징과 후속 가격 변화를 기반으로 ICO가 사기인지 여부를 예측하기 위해 지도 학습을 사용하여 다중 비선형층을 가진 딥 네ural 네트워크를 훈련시킨다.
모델의 결정을 해석하기 위해 기울기 기반 및 특징 제거 방법(Saliency methods)을 적용하여 사기 예측에 가장 영향을 미치는 특징이나 토픽을 식별한다.
개별 특징과 LDA 토픽의 影향 점수(influence scores)를 계산하여 그 기여도를 정량적으로 평가함으로써 위험 요인 분석을 가능하게 한다.
모델은 2,251개의 ICO 프로젝트로 구성된 데이터셋을 기반으로 훈련 및 평가되었으며, 레이블은 6개월과 12개월 간의 가격 변화에서 유도되었다.

실험 결과

연구 질문

RQ1화이트페이퍼, 깃허브, 팀 프로필, 웹사이트 등 다중 소스 텍스트 및 구조적 데이터를 분석함으로써 딥러닝 모델이 사기성 ICO를 효과적으로 식별할 수 있는가?
RQ2다양한 데이터 소스(예: 화이트페이퍼 대비 깃허브)가 사기성 ICO 탐지 능력에 기여하는 정도는 어떠한가?
RQ3기울기 및 특징 제거와 같은 해석 가능성 기법을 통해 사기 행동을 가장 잘 나타내는 토픽이나 특징은 무엇인지 밝혀낼 수 있는가?
RQ4제안된 시스템의 정밀도 및 F1 스코어 측면에서의 사기 탐지 성능은 어떠한가? 기존 인간 기반 평가 체계와 비교해보면 어떠한가?
RQ5게임, 도박 등 특정 토픽(예: 게임, 도박)이 사기성 ICO와 더 강하게 연관되어 있는가? 이는 모델의 해석을 통해 정량화할 수 있는가?

주요 결과

제안된 IcoRating 시스템은 사기 ICO 프로젝트 식별에서 정밀도 0.83과 F1 스코어 0.80을 달성하여 강력한 예측 성능을 입증하였다.
기울기 분석을 통해 화이트페이퍼와 깃허브 리포지터리가 모델의 사기 예측에 가장 영향력 있는 특징으로 확인되었다.
LDA 토픽 모델링을 통해 게임, 도박, 엔터테인먼트 관련 ICO는 사기일 가능성이 뚜렷이 높았으며, 각각의 영향 점수는 -1.62, -1.23, -1.17로 나타났다.
특징 제거 방법을 통해 화이트페이퍼 내용이나 깃허브 활동과 같은 핵심 특징을 제거할 경우 모델의 사기 여부 판단에 대한 신뢰도가 크게 감소함을 확인하여, 모델의 해석 가능성에 대한 타당성을 입증하였다.
6개월 이내에 29% 이상의 ICO 프로젝트가 가격이 80% 이상 하락했으며, 1년 이내에는 39.6%가 하락하여 자동 탐지 시스템의 필요성을 부각시켰다.
블랙박스 기반의 데이터 중심 훈련 과정 덕분에 인간이 수작업으로 정의한 평가 체계에 비해 객관성과 조작 저항성 면에서 시스템이 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.