[論文レビュー] Controversy and Sentiment in Online News
本稿では、感情およびバイアス語彙を用いて、米国ニュースにおける論争の激しいトピックのフレーミングをデータ駆動で定量的に分析する手法を提案する。15のニュース出先から数百万件の記事を分析した結果、論争の激しいトピックでは否定的感情が強く、バイアスを含む言語が多く使われるが、強い感情表現は少ないことが判明した。これは自己検閲の兆候であると考えられ、バイアス語彙は論争の度合いを強く予測する要因となっている。
How do news sources tackle controversial issues? In this work, we take a data-driven approach to understand how controversy interplays with emotional expression and biased language in the news. We begin by introducing a new dataset of controversial and non-controversial terms collected using crowdsourcing. Then, focusing on 15 major U.S. news outlets, we compare millions of articles discussing controversial and non-controversial issues over a span of 7 months. We find that in general, when it comes to controversial issues, the use of negative affect and biased language is prevalent, while the use of strong emotion is tempered. We also observe many differences across news sources. Using these findings, we show that we can indicate to what extent an issue is controversial, by comparing it with other issues in terms of how they are portrayed across different media.
研究の動機と目的
- オンラインニュースメディアにおける論争の激しい問題が言語的にどのようにフレーミングされているかを理解すること。
- 論争の激しいトピックとそうでないトピックとの間に、感情およびバイアス語彙が系統的に異なるかどうかを調査すること。
- 語彙リソースを用いて、ニュース報道における論争の度合いを推定する計算的手法を開発すること。
- ニュース出先ごとのフレーミングの違いを比較し、言語使用における組織的バイアスの可能性を明らかにすること。
- 今後の研究のための、論争の激しい、ある程度論争のある、および論争のない語彙の公開データセットを提供すること。
提案手法
- 10人のアノテーターが1語ごとに関与するクラウドソーシングを用いて、論争の激しい語彙とそうでない語彙の新しいデータセットを構築した。
- 2013年3月から9月までの7か月間、15の主要米国ニュース出先(例:CNN、NYT、Reuters)から700万件のニュース記事を収集・分析した。
- 4つの感情語彙(例:NRC、SentiStrength)を適用し、記事のテキスト内の肯定的および否定的感情の強度を測定した。
- Wikipediaの議論から抽出したバイアス語彙を用いて、思想的色が強いまたは判断を含む言語を検出した。
- ラベル付き語彙を訓練データとして用い、感情およびバイアス語彙の頻度に基づいて論争度を予測する分類器を訓練した。
- 特定のトピック(例:'democrats'、'murder')について、各ニュース出先のトップバイアス語および感情語彙を分析することで、ニュース出先間での言語的フレーミングの違いを比較した。
実験結果
リサーチクエスチョン
- RQ1論争の激しいトピックとそうでないトピックを扱う記事において、感情(特に否定的および強い感情表現)の使用にどのような差が生じるか?
- RQ2バイアスを含む語彙(例:'terrorist'、'criminal')が論争の激しいトピックとどの程度共起するか、また論争度を予測できるか?
- RQ3異なるニュース出先は、同じ論争の激しいトピックをどのように言語的にフレーミングしているか?
- RQ4ニュース作成者が論争の激しい文脈において、強い感情表現の使用を減らすなど、自己規制の兆候が見られるか?
- RQ5感情語彙およびバイアス語彙からの語彙的特徴を用いて、自動的にニューストピックの論争度を推定できるか?
主な発見
- 4つの感情語彙すべてにおいて、論争の激しいトピックでは否定的感情語彙の頻度が高く、肯定的感情語彙の使用頻度が低い傾向が一貫して確認された。
- 論争の激しいトピックでは、強い感情表現(強度の高い語)の使用頻度が、そうでないトピックよりも顕著に減少しており、ニュース出先による自己検閲の兆候であると考えられる。
- バイアス語彙(例:'terrorist'、'criminal'、'justice'、'rights')は、論争の激しいトピックの記事でより頻繁に出現し、論争度の強力な予測要因となっている。
- ニュース出先ごとに言語的フレーミングに顕著な差が見られた。例えば、ハフィントン・ポストは「democrats」を扱う際、より主観的な語彙(例:'very'、'good')を多く用いている一方、CNNやReutersはより機関的・形式的な言語を多く使っている。
- 地域的規模の小さな出先(例:Philadelphia Inquirer、Honolulu Star-Advertiser)は、暴力報道において特定の人物や場所(例:'victim'、'university')に焦点を当てがちであるのに対し、全国的出先はより広範な機関に注目している。
- 『oil』や『drug』のような曖昧な語彙は、文脈によって論争の激しい語彙であるにもかかわらず、非論争的語彙として誤分類された。今後の研究では文脈に配慮した分析の必要性が浮き彫りになった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。