QUICK REVIEW

[論文レビュー] Clickbait Detection in Tweets Using Self-attentive Network

Yiwei Zhou|arXiv (Cornell University)|Oct 15, 2017

Misinformation and Its Impacts参考文献 26被引用数 47

ひとこと要約

この論文では、自己注意機構と双方向GRUを用いた自己注意型ニューラルネットワークモデルを提示しており、ツイートにおけるクリックベイト検出を、手動での特徴工学を一切行わずにエンド・ツー・エンド学習可能な、多クラス分類タスクに再定式化している。このアプローチにより、MSEが0.033に達し、クリックベイト・チャレンジ2017で1位を達成する、最先端の性能を実現した。

ABSTRACT

Clickbait detection in tweets remains an elusive challenge. In this paper, we describe the solution for the Zingel Clickbait Detector at the Clickbait Challenge 2017, which is capable of evaluating each tweet's level of click baiting. We first reformat the regression problem as a multi-classification problem, based on the annotation scheme. To perform multi-classification, we apply a token-level, self-attentive mechanism on the hidden states of bi-directional Gated Recurrent Units (biGRU), which enables the model to generate tweets' task-specific vector representations by attending to important tokens. The self-attentive neural network can be trained end-to-end, without involving any manual feature engineering. Our detector ranked first in the final evaluation of Clickbait Challenge 2017.

研究の動機と目的

ユーザーをだますために好奇心のギャップを生じさせることでコンテンツの質を低下させる、ツイートにおけるクリックベイトの検出という課題に対処すること。
クリックベイトの強度の段階的性質を反映するために、従来の二値分類手法の改善として、クリックベイトを段階的回帰問題としてモデル化すること。
手動での特徴工学を一切行わず、顕著なトークンを自動で特定することができる、エンド・ツー・エンドで学習可能なモデルの開発。
クリックベイト・チャレンジ2017のベンチマーク上で、MSE、F1スコア、正答率、推論速度の複数の指標において高い性能を達成すること。

提案手法

チャレンジで提示されたアノテーションスキームに基づき、クリックベイト検出タスクを回帰から多クラス分類に再定式化する。
ツイートのテキストを文脈的な隠れ状態にエンコードするために、双方向ゲート付き再帰ユニット（biGRU）を用いる。
顕著なトークンに注目することで、タスク固有の動的表現を生成するため、biGRUの隠れ状態に自己注意機構を適用する。
勾配クリッピングとドロップアウト正則化を用い、Adam最適化により、モデル全体をエンド・ツー・エンドで学習する。
トレーニング中に微調整可能な、Wikipediaで事前学習された100次元のGloVe埋め込みを単語埋め込みとして初期化する。
データセットCを用いた5分割交差検証により、Hyperoptを用いてハイパーパramータ（学習率、ドロップアウト、バッチサイズ、勾配クリッピング）を最適化する。

実験結果

リサーチクエスチョン

RQ1自己注意型ニューラルネットワークは、従来の二値分類手法に比べて、ツイートにおけるクリックベイトの段階的性質を効果的にモデル化できるか？
RQ2外部特徴を用いずに、言語学的に顕著なトークンに注目することで、注意機構がどれほどクリックベイト検出の性能を向上させられるか？
RQ3自己注意を用いたエンド・ツー・エンド学習は、手動での特徴工学に比べて、ツイートのクリックベイト検出において性能と効率の面で優れているか？
RQ4統合されたモデルは、実世界のベンチマーク上でMSE、F1、正答率、推論時間の複数の評価指標において、高い性能を達成できるか？

主な発見

Zingel Clickbait Detectorは、最終評価でMSEが0.033を達成し、1位となり、ベースラインのMSE 0.044を著しく上回った。
F1スコアは0.683、正答率は0.856を達成し、すべての指標で強力な分類性能を示した。
実行時間は3分27秒と低く、推論効率が非常に高いことを示した。
biGRUでエンコードされた表現に自己注意を適用することで、手動での特徴工学を一切行わず、効果的なエンド・ツー・エンド学習が可能になった。
トレーニングにデータセットAとデータセットCを組み合わせ、利用可能なラベル付きデータをすべて活用することで、一般化性能を向上させた。
Hyperoptによるハイパーパramータ最適化により、最適な設定（バッチサイズ32、ドロップアウト0.5、初期学習率0.005、勾配クリッピング閾値2）が特定された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。