[論文レビュー] IcoRating: A Deep-Learning System for Scam ICO Identification
IcoRating は、自然言語処理(NLP)と教師あり学習を用いて、白書、GitHub リポジトリ、チームプロフィール、Web サイトなど複数の情報源からのデータを分析することで、スパムとされる初期コインオファー(ICO)を特定するディープラーニングシステムです。スパムプロジェクトの検出において 0.83 の精度を達成しており、人為的なレーティングシステムに比べて客観的で自動的かつ操作が難しい代替手段を提供します。
Cryptocurrencies (or digital tokens, digital currencies, e.g., BTC, ETH, XRP, NEO) have been rapidly gaining ground in use, value, and understanding among the public, bringing astonishing profits to investors. Unlike other money and banking systems, most digital tokens do not require central authorities. Being decentralized poses significant challenges for credit rating. Most ICOs are currently not subject to government regulations, which makes a reliable credit rating system for ICO projects necessary and urgent. In this paper, we introduce IcoRating, the first learning--based cryptocurrency rating system. We exploit natural-language processing techniques to analyze various aspects of 2,251 digital currencies to date, such as white paper content, founding teams, Github repositories, websites, etc. Supervised learning models are used to correlate the life span and the price change of cryptocurrencies with these features. For the best setting, the proposed system is able to identify scam ICO projects with 0.83 precision. We hope this work will help investors identify scam ICOs and attract more efforts in automatically evaluating and analyzing ICO projects.
研究の動機と目的
- 暗号資産市場における高い失敗率やスパム率の高さを踏まえ、規制のないICOに対して客観的で自動化された信用格付けシステムの必要性に対応すること。
- 従来の人為的なレーティングシステムに比べ、人為的バイアスが少なく、悪意ある参加者が操作しにくい機械学習ベースのシステムを開発すること。
- 白書、GitHub、チーム情報、Web サイトなど多様なICOデータソースを分析し、スパムプロジェクトの微細な兆候を特定すること。
- 投資家の意思決定を向上させることで、重大な財務的損失が生じる前に、高リスクまたは不正なICOを早期に特定すること。
- ICOの質に関する自動的で信頼性が高く、解釈可能な評価手法の開発を促進し、学術的および公共部門の研究を促進すること。
提案手法
- 本システムは、階層的LSTMモデルとLDAトピックモデリングを用いて、ICOの白書からテキスト特徴を抽出・表現する自然言語処理(NLP)を採用している。
- 白書、GitHub、チームのWebサイトなど複数の情報源からの構造的および非構造的データを統合し、モデルのための統一された入力表現を構築している。
- 特徴量とその後の価格変動に基づいて、ICOがスパムであるかどうかを予測するために、複数の非線形層を有するディープニューラルネットワークを教師あり学習で訓練している。
- モデルの意思決定を解釈するために、勾配の第一導関数および特徴の削除法(saliency methods)を適用し、スパム予測に最も影響を与える特徴やトピックを同定している。
- 個々の特徴およびLDAトピックの影響度スコアを計算することで、スパムの可能性に寄与する寄与度を順位付けし、リスク要因の定性的な分析を可能にしている。
- 本システムは、6か月および12か月間の価格変動に基づいてラベル付けされた、2,251件のICOプロジェクトからなるデータセットを用いて訓練および評価している。
実験結果
リサーチクエスチョン
- RQ1複数の情報源(白書、GitHub、チームプロフィール、Web サイトなど)からのテキストおよび構造的データを分析することで、ディープラーニングモデルがスパムICOを効果的に特定できるか?
- RQ2白書とGitHubなどの異なるデータソースは、不正ICOの検出能力にどの程度寄与しているか?
- RQ3勾配法や特徴の削除法などの解釈技術を用いることで、スパム行動を示すトピックや特徴がどの程度顕著に特定できるか?
- RQ4提案されたシステムのスパム検出における精度とF1スコアの性能はどの程度で、人為的なレーティングシステムと比較してどう異なるか?
- RQ5ゲーム、ギャンブルなどの特定のトピック(テーマ)は、スパムICOと強く関連しているとされるが、モデルの解釈を用いてその関連性を定量的に測定できるか?
主な発見
- 提案された IcoRating システムは、スパムICOプロジェクトの識別において、精度が 0.83、F1スコアが 0.80 を達成しており、優れた予測性能を示している。
- 勾配法分析の結果、白書とGitHubリポジトリが、モデルのスパム予測に最も顕著な影響を与える特徴であると特定された。
- LDAトピックモデリングの結果、ゲーム、ギャンブル、エンターテインメント関連のICOは、スパムである可能性が著しく高まっており、それぞれ影響度スコアが -1.62、-1.23、-1.17 であった。
- 特徴の削除法により、白書の内容やGitHubの活動といった重要な特徴を削除すると、モデルのスパムと分類する自信が著しく低下することが確認され、モデルの解釈可能性が裏付けられた。
- 29%以上のICOプロジェクトが6か月以内に価格が80%以上下落しており、1年以内には39.6%に達していることから、自動検出システムの必要性が浮き彫りになった。
- ブラックボックスでデータ駆動型の訓練プロセスを経ているため、人為的なレーティングシステムに比べ、客観性が高く、操作に対する耐性が強いことが、本システムの優位性である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。