[論文レビュー] A Stylometric Inquiry into Hyperpartisan and Fake News
この論文は書き方スタイルを分析し、ハイパーパーティザン(極端 partisan)ニュースと主流ニュースと風刺を区別し、Unmaskingを用いたスタイルでの偽ニュース検出をBuzzFeed-Webis コーパスで評価する; 結果は極端 partisan スタイルが主流と区別可能で、左翼/右翼はスタイル的に類似点を共有し、スタイルだけでは偽ニュース検出は困難。
This paper reports on a writing style analysis of hyperpartisan (i.e., extremely one-sided) news in connection to fake news. It presents a large corpus of 1,627 articles that were manually fact-checked by professional journalists from BuzzFeed. The articles originated from 9 well-known political publishers, 3 each from the mainstream, the hyperpartisan left-wing, and the hyperpartisan right-wing. In sum, the corpus contains 299 fake news, 97% of which originated from hyperpartisan publishers. We propose and demonstrate a new way of assessing style similarity between text categories via Unmasking---a meta-learning approach originally devised for authorship verification---, revealing that the style of left-wing and right-wing news have a lot more in common than any of the two have with the mainstream. Furthermore, we show that hyperpartisan news can be discriminated well by its style from the mainstream (F1=0.78), as can be satire from both (F1=0.81). Unsurprisingly, style-based fake news detection does not live up to scratch (F1=0.46). Nevertheless, the former results are important to implement pre-screening for fake news detectors.
研究の動機と目的
- 書き方のスタイルによってハイパーパーティザンなニュースを主流ニュースと区別できるかを調査する。
- 左派系と右派系のニュースの書き方のスタイルがスタイリッシュに類似しているかを検討する。
- スタイル特徴だけで偽ニュースを検出できるか、そして風刺が偽/真ニュースにどう関係するかを評価する。
提案手法
- 著者検証のために元々用いられたメタ学習的スタイル分析であるUnmaskingを適用し、左・右・主流の傾向別の記事セットを比較する。
- 文字n-gram、ストップワード、品詞n-gram、読みやすさスコア、辞書ベースの特徴、引用や外部リンクなどのドメイン固有特徴を含む広範なスタイル特徴を抽出・評価する。
- 頻度の低い特徴を除外し、カテゴリ間の比較可能性を確保する特徴選択を用いる。
- スタイルとトピック特徴に基づいて、ハイパーパーティザン vs 主流、傾向予測、風刺検出のためにランダムフォレスト分類器を訓練する。
- ほとんど偽情報と真偽混合の記事をグループ化して偽ニュースを定義する。
- Unmaskingの傾斜分析によってスタイルの類似性を視覚化し、カテゴリ間のスタイルの近さを解釈する。
実験結果
リサーチクエスチョン
- RQ1ハイパーパーティザンな左翼ニュースと右翼ニュースの間に共通の文体パターンがあるか?
- RQ2文章スタイルだけでハイパーパーティザンなニュースと主流ニュース、風刺と実ニュースを識別できるか?
- RQ3スタイルだけで偽ニュースを検出できるか、そしてスタイルベースの検出における風刺の位置づけは?
主な発見
- 左翼・右翼のハイパーパーティザン記事は、主流と比較して有意な文体的類似を示し、Unmasking曲線で裏付けられる。
- スタイルベースの分類器は、主流とハイパーパーティザンを識別する際に有意な精度と再現率を示す(スタイルベースのハイパーパーティザン vs 主流で最高は精度0.75、ハイパーパーティザンの再現率0.89)。
- トピックベース(Bag-of-Words)モデルは、いくつかの三クラスの傾向予測でスタイルモデルを上回ることがあり、トピック信号が微細な分類に影響することを示す。
- スタイル特徴は風刺検出を強力に可能にし(精度0.82、F1 0.81)、風刺は偽ニュースと真ニュースの双方から文体的に異なる。
- スタイルだけによる偽ニュース検出は控えめな性能(精度0.55、F1は設定により約0.41–0.63)で、スタイルの事前スクリーニングが支援になるが単独では十分でない。
- 風刺は偽ニュース/実ニュースから文体的により遠く、スタイルの観点から信頼できる識別を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。