QUICK REVIEW

[論文レビュー] Machine Learning Based Detection of Clickbait Posts in Social Media

Xinyue Cao, Thai Le|arXiv (Cornell University)|Oct 5, 2017

Misinformation and Its Impacts参考文献 2被引用数 25

ひとこと要約

この論文では、見出し、ターゲットコンテンツ、およびそれらの意味的類似性から導出された60の高インパクト特徴量の明示的セットを用いて、ソーシャルメディアにおけるクリックベイト投稿を検出する機械学習的手法を提案する。Clickbait Challenge 2017データセットを用い、ランダムフォレスト回帰を適用することで、MSEが0.035、正解率が0.82、F1スコアが0.61の成績を達成し、投稿本文およびターゲットテキストからの言語的・構造的特徴がクリックベイト意図の強力な予測要因であることを示している。

ABSTRACT

Clickbait (headlines) make use of misleading titles that hide critical information from or exaggerate the content on the landing target pages to entice clicks. As clickbaits often use eye-catching wording to attract viewers, target contents are often of low quality. Clickbaits are especially widespread on social media such as Twitter, adversely impacting user experience by causing immense dissatisfaction. Hence, it has become increasingly important to put forward a widely applicable approach to identify and detect clickbaits. In this paper, we make use of a dataset from the clickbait challenge 2017 (clickbait-challenge.com) comprising of over 21,000 headlines/titles, each of which is annotated by at least five judgments from crowdsourcing on how clickbait it is. We attempt to build an effective computational clickbait detection model on this dataset. We first considered a total of 331 features, filtered out many features to avoid overfitting and improve the running time of learning, and eventually selected the 60 most important features for our final model. Using these features, Random Forest Regression achieved the following results: MSE=0.035 MSE, Accuracy=0.82, and F1-sore=0.61 on the clickbait class.

研究の動機と目的

ユーザーをだます誇張的または誤解を招く見出しを用いたソーシャルメディア上のクリックベイト見出しを、スケーラブルでデータ駆動型の方法で同定すること。
クリックベイト行動の予測に最も寄与する特徴量を同定するため、見出しおよびターゲットコンテンツからなる包括的な331の特徴量を抽出・評価すること。
フィッシャースコアに基づく特徴選択を用いて、60の最も重要な特徴量のみを選択することで、モデルの汎化性能を向上させ、過学習を低減すること。
選択された特徴量を用いて複数の機械学習モデルを評価し、クリックベイト検出に最適な構成を同定すること。
特に人間のアノテーションで高い不一致が見られる曖昧なケースにおけるモデルの限界を分析すること。

提案手法

著者らは、Clickbait Challenge 2017から21,000件のソーシャルメディア見出しを収集・処理し、各見出しは少なくとも5名のクラウドワーカーによってアノテートされた。
品詞タグ頻度、疑問符の有無、感情強度、見出しとターゲットコンテンツ間の類似性など、語彙的・構文的・意味的指標を含む331の特徴量を設計した。
過学習の低減と計算効率の向上を目的として、フィッシャースコアを用いて特徴量をランク付けし、最も情報量の多い60の特徴量のみを保持した。
最終的なモデルは、トレーニングセットで10-foldクロスバリデーションを用いてハイパーパrameterチューニングを実施したランダムフォレスト回帰および分類器で学習した。
評価のため、連続的なクリックベイトスコアを二値のクリックベイト／非クリックベイト予測に変換するためのしきい値0.5を用いた。
誤分類されたインスタンスを分析し、モデルの信頼性と人間のアノテーションにおける曖昧さを評価した。

実験結果

リサーチクエスチョン

RQ1見出しおよびターゲットコンテンツからの言語的・構造的特徴量の中で、クリックベイト行動を最もよく予測するのはどれか？
RQ2投稿本文とターゲットコンテンツの両方からの特徴量を含めることで、単に見出しのみを用いたモデルと比較して、クリックベイト検出性能がどの程度向上するか？
RQ3特徴選択とモデル選択は、特にF1スコアとMSEの観点から、クリックベイト検出性能にどの程度影響を与えるか？
RQ4なぜモデルは、人間のアノテーションで高いばらつきが見られる曖昧なケースの分類に苦労するのか？
RQ5機械学習モデルは、現実世界のクラウドアノテート済みクリックベイトデータセットにおいて、高い正解率とF1スコアを達成できるか？

主な発見

ランダムフォレスト分類器は、クリックベイトクラスでF1スコア0.61を達成し、クリックベイトと非クリックベイトのコンテンツを区別する能力が優れていることを示している。
モデルはMSEが0.035、正解率が0.82を達成し、Clickbait Challenge 2017データセットにおいて高い予測性能を示している。
投稿関連の特徴量グループが、MSEの最小化と正解率の最大化の両面で最も優れた全体的な性能を示した。
特徴選択により、特徴量数を331から60に削減し、モデルの効率性を著しく向上させるとともに、過学習を低減した。
誤分類されたインスタンスの約48％が、平均アノテーションスコアが0.33から0.66の間であったため、人間のラベル付けにおける曖昧さがモデル汎化性能の主な課題であることが示された。
上位60の特徴量として、品詞パターン、標点の使用（例：疑問符）、見出しとターゲット間の意味的類似性が、クリックベイトの有効な指標として特定された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。