QUICK REVIEW

[論文レビュー] SemEval-2017 Task 8: RumourEval: Determining rumour veracity and support for rumours

Leon Derczynski, Kalina Bontcheva|White Rose Research Online (University of Leeds, The University of Sheffield, University of York)|Apr 20, 2017

Misinformation and Its Impacts参考文献 18被引用数 25

ひとこと要約

本論文は、Semeval-2017で実施された共有課題であるRumourEvalを提示する。この課題は、ソーシャルメディアにおけるフェイクニュースの検出と検証を目的とし、大規模なデータセットと2つのチャレンジ（フェイクニュースの真偽判定とユーザーのスタンス分類）を提供する。本課題は、スタンス検出（支持、否定、質問、コメント）と真偽分類に焦点を当てており、深層学習と特徴工学を用いた最先端のシステムが優れた性能を示しているが、真偽予測は進展にもかかわらず依然として困難な課題のままである。

ABSTRACT

Media is full of false claims. Even Oxford Dictionaries named "post-truth" as the word of 2016. This makes it more important than ever to build systems that can identify the veracity of a story, and the kind of discourse there is around it. RumourEval is a SemEval shared task that aims to identify and handle rumours and reactions to them, in text. We present an annotation scheme, a large dataset covering multiple topics - each having their own families of claims and replies - and use these to pose two concrete challenges as well as the results achieved by participants on these challenges.

研究の動機と目的

自然言語処理を用いてソーシャルメディアにおけるフェイクニュースの検出と検証を可能とする共有課題の開発。
複数のトピックをカバーする、フェイクニュースとユーザーの返信をスタンス（支持、否定、質問、コメント）および真偽に関してアノテートした大規模なデータセットの作成。
2つのサブタスク（スタンス分類（SDQC）とフェイクニュースの真偽分類）におけるシステムの評価。
コミュニティ主導の評価のためのベンチマークを提供することで、フェイクニュース検出分野の研究を推進すること。
構造的なディス course 分析を支援することで、ジャーナリズム、災害対応、誤情報対策の分野における応用を支援すること。

提案手法

本課題は、ソーシャルメディアのツリー構造を持つ会話スレッドを用い、各返信が元のフェイクニュースに対して支持（S）、否定（D）、質問（Q）、コメント（C）のいずれかにラベル付けされる。
参加者は、4クラスのSDQCフレームワークを用いて、各返信ツイートのスタンスを分類することを課せられる。
真偽分類では、フェイクニュースのソースが真実、偽物、または未確認であると予測する。外部リソースの使用を許可するオープン設定と、外部リソースを使用しないクローズド設定の両方を用いる。
データセットには、複数の現実世界の出来事に基づく数千件のドキュメントが含まれており、ジャーナリストとNLP専門家によるアノテーションにより品質が保証されている。
システムは、LSTM、CNN、SVM、および事前学習済み単語埋め込み（例：word2vec）を含む多様な技術を用い、信念、知識、疑念の兆候に注目した特徴工学が行われる。
クラス不均衡は、特に真偽分類タスクにおいて、リサンプリングや信頼度キャリブレーションなどの技術によって対処される。

実験結果

リサーチクエスチョン

RQ1NLPシステムは、ソーシャルメディアの会話において、ユーザーのフェイクニュースに対するスタンス（支持、否定、質問、コメント）を正確に分類できるか？
RQ2深層学習と従来の機械学習モデルは、テキスト的コンテンツとディス course 構造に基づいてフェイクニュースの真偽を予測するのにどの程度効果的か？
RQ3オープン設定における外部知識リソースの使用は、真偽分類のパフォーマンスをどの程度向上させるか？
RQ4信念、疑念、否定といった言語的兆候は、スタンスおよび真偽検出にどのように寄与するか？
RQ5会話構造（例：ネストされた返信）は、スタンスおよび真偽分類の性能向上にどのような役割を果たすか？

主な発見

スタンス分類で最も高い性能を示したシステム（Turing）は、事前学習済み単語埋め込みを用いたLSTMを採用し、順序的なディス course コンテキストをモデル化することで優れた性能を達成した。
特に信念、知識、疑念の兆候に注目した包括的な特徴工学を実施したシステム—UWaterlooおよびECNU—は、優れた結果を上げた。
真偽分類においては、クローズドバージョンのベースライン（F1スコア 0.571）を参加者全員が上回り、NileTMRGがF1スコア 0.536、IKMがF1スコア 0.536を達成した。これは、クラス不均衡にもかかわらず強い学習が可能であることを示している。
オープンバージョンの真偽分類では、ECNUがF1スコア 0.464、DFKI-DKTがF1スコア 0.393を達成し、外部リソースの使用が一部のシステムでパフォーマンス向上に寄与したことが示された。
進展は見られたが、真偽分類タスクでは、どのシステムもマジョリティクラスベースラインを上回ることはできず、このタスクの本質的な難易度が浮き彫りになった。
本データセットと共有課題の結果は、今後のフェイクニュース検出および誤情報分析分野における研究のための堅実なベンチマークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。