QUICK REVIEW

[論文レビュー] Understanding Types of Users on Twitter

Muhammad Moeen Uddin, Muhammad Imran|arXiv (Cornell University)|Jun 5, 2014

Spam and Phishing Detection被引用数 24

ひとこと要約

本稿では、プロフィールメタデータとツイーティング行動特徴量を用いて、Twitterユーザーを6つの異なるタイプ—個人、プロフェッショナル、ビジネス、スパム、フィード/ニュース、バズ/マーケティング—に分類する教師あり機械学習手法を提案する。この手法は、全クラスでAUCスコアが0.93を超える高い分類精度を達成しており、ユーザーのタイプ特定における行動特徴とプロフィール特徴の組み合わせの有効性を示している。

ABSTRACT

People use microblogging platforms like Twitter to involve with other users for a wide range of interests and practices. Twitter profiles run by different types of users such as humans, bots, spammers, businesses and professionals. This research work identifies six broad classes of Twitter users, and employs a supervised machine learning approach which uses a comprehensive set of features to classify users into the identified classes. For this purpose, we exploit users' profile and tweeting behavior information. We evaluate our approach by performing 10-fold cross validation using manually annotated 716 different Twitter profiles. High classification accuracy (measured using AUC, and precision, recall) reveals the significance of the proposed approach.

研究の動機と目的

プロフィールおよび行動的特徴に基づいて、Twitterユーザーの明確に区別できるタイプを特定・分類すること。
包括的な特徴量セットを用いて、ユーザーを事前に定義されたタイプに自動的に分類する機械学習フレームワークを開発すること。
プロフィールおよびツイーティング行動特徴量が、Twitter上でのユーザータイプの区別にどの程度有効であるかを評価すること。
マーケター、組織、研究者による標的型ソーシャルメディア参加の基盤を提供すること。

提案手法

研究では、ランダムに選択された716件のTwitterプロフィールを手動分析することで、6つのユーザークラスを特定した。
プロフィール属性（例：バイオ、ウェブサイト、created_at）および行動指標（例：リツイート頻度、返信率、リスト参加）を含む、17の特徴量の包括的セットを抽出した。
特徴量には、時間的パターン（例：1週間あたりのツイート頻度）、ネットワーク指標（例：フォロワー数、listed_count）、インフルエンス指標（例：フォロワー数、いいね数、listed_countの合計による集団的インフルエンス）が含まれる。
手動アノテーション済みデータを用いて、10分割交差検証を実行し、バギングを適用したランダムフォレスト分類器を訓練した。
異なる特徴量間のスケールの一貫性を確保するため、学習前に特徴量値に正規化を適用した。
精度、再現率、F-measure、AUCを評価指標として用い、不均衡なデータ設定においても頑健であるAUCを主な指標として採用した。

実験結果

リサーチクエスチョン

RQ1プロフィールおよび行動的特徴に基づいて、Twitter上に存在する明確に区別できるユーザーのタイプは何か？
RQ2プロフィールおよびツイーティング行動特徴量のうち、どの組み合わせがTwitter上での異なるユーザークラスを最も効果的に区別できるか？
RQ3これらの特徴量を用いて、教師あり機械学習モデルがTwitterユーザーを事前に定義されたタイプにどの程度正確に分類できるか？
RQ4特に出現頻度が低いユーザークラスにおいて、分類性能はどのように変動するか？

主な発見

提案されたモデルは、全6クラスでAUCスコアが0.93を超える高い分類精度を達成した。
最高のAUCはビジネスユーザー（0.990）で記録され、次いでプロフェッショナルユーザー（0.970）が続いた。これは、これらのクラスに対して優れた識別性能を示している。
スパムおよびフィード/ニュースユーザーはやや低いが依然として頑健なAUCスコア（0.936および0.934）を示しており、これらタイプの区別が困難であることがうかがえる。
プロフェッショナルおよびビジネスユーザーの精度は0.87以上、再現率は0.93以上であり、これらのユーザータイプを高精度に特定できていることが示された。
フィード/ニュースクラスではF-measureが0.468にとどまり、このカテゴリの特徴量に曖昧さや重複がある可能性を示唆している。
全体として、分類器は優れた一般化性能を示しており、全クラスで高いAUCを達成した。これにより、選択された特徴量セットの有意性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。