QUICK REVIEW

[論文レビュー] Fake News Detection as Natural Language Inference

Kai Yang, Timothy Niven|arXiv (Cornell University)|Jul 17, 2019

Topic Modeling参考文献 12被引用数 23

ひとこと要約

本論文は、自然言語推論（NLI）として定式化することで、中国語のニュース見出しにおけるフェイクニュース検出システムを提案する。アンサンブル手法を用いた微調整済みNLIモデルとBERTに加え、仮ラベル付けと推移性に基づく後処理を適用した。この手法により、重複するテストサンプルに対して信頼性を向上させ、WSDM 2019 フェイクニュース分類コンテストで3位を獲得し、テスト精度88.063%を達成した。

ABSTRACT

This report describes the entry by the Intelligent Knowledge Management (IKM) Lab in the WSDM 2019 Fake News Classification challenge. We treat the task as natural language inference (NLI). We individually train a number of the strongest NLI models as well as BERT. We ensemble these results and retrain with noisy labels in two stages. We analyze transitivity relations in the train and test sets and determine a set of test cases that can be reliably classified on this basis. The remainder of test cases are classified by our ensemble. Our entry achieves test set accuracy of 88.063% for 3rd place in the competition.

研究の動機と目的

自然言語推論（NLI）を統一フレームワークとして用いて、中国語のニュース見出しにおけるフェイクニュース検出の課題に取り組むこと。
複数の強力なNLIモデルとBERTのアンサンブル学習により分類精度を向上させること。
初期アンサンブルからのソフトラベルを用いた仮ラベル付けと反復的微調整により性能を向上させること。
重複する訓練データとテストデータにおける推移的関係を活用し、テストサンプルのサブセットに対して信頼性が高く精度の高い予測を実現すること。
WSDM 2019 フェイクニュース分類コンテストで最先端の性能を達成すること。

提案手法

フェイクニュース検出を3クラスの自然言語推論（NLI）タスクとして定式化：前提（既知のフェイクニュース見出し）、仮説（候補となる見出し）、ラベル（含意、矛盾、中立）。
中国語テキストを用いて、語彙レベルと文字レベルの埋め込み（Tencent、SGNS、FastTextを含む）を用い、複数の高性能NLIモデル（例：Decomposable Attention、ESIM、Dense RNN/CNN）とBERTを微調整して学習する。
バリデーション精度を用いた早期停止とドロップアウトによる正則化を実施。LightGBMとフィードフォワードネットワークを用いて、1段目のモデル予測をアンサンブルする。
1段目のアンサンブルからのソフト仮ラベルを生成し、2段階の訓練プロセスにおいて、すべてのNLIモデルとBERTを再微調整する。
推移的推論を適用：AがBを含意し、BがCを含意するならば、AはCを含意すべき（正の推移性）；AがBと矛盾し、BがCを含意するならば、AはCと矛盾すべき（負の推移性）。
最適な閾値探索により決定された重み（0.79と0.21）を用いて、2段目のアンサンブル予測とBERTの予測を重み付き平均で融合し、6,888件のテストサンプルについて推移性に基づく予測を分類器出力に置き換える。

実験結果

リサーチクエスチョン

RQ1自然言語推論モデルは、中国語のニュース見出しにおけるフェイクニュース検出に必要な意味的関係を効果的に捉えることができるか？
RQ2アンサンブル学習と仮ラベル付けは、低リソースで多言語対応なフェイクニュース検出タスクにおいて、どの程度性能を向上させ得るか？
RQ3重複する訓練データとテストデータにおける推移的関係は、高信頼性の予測を生成するためにどの程度信頼できるか？
RQ4推移性ルールによる後処理は、訓練済み分類器の性能を著しく上回る最終精度を達成できるか？
RQ5複数のNLIモデルとBERTを統合するフェイクニュース検出パイプラインにおいて、最適なブレンド戦略は何か？

主な発見

最終システムはテストセットで88.063%の精度を達成し、WSDM 2019 フェイクニュース分類コンテストで3位を獲得した。
1段目のNLIモデルとBERTのアンサンブルは86.741%の精度を達成し、仮ラベルを用いた2段階目の微調整により87.990%に向上した。
最適な重み（0.79と0.21）を用いて2段目の予測とBERTをブレンドした結果、推移性後処理前の精度は88.019%に達した。
6,888件のテストサンプルに推移的関係を適用したところ、正の推移性ケースの99.9%、負の推移性ケースの99.7%が成立しており、精度が0.04%向上し88.063%に達した。
推移性に基づく予測のみを用いた最終提出では93%の精度を達成し、重複データにおけるこの手法の信頼性を示した。
著者らは、推移性ルールにより約70万件の「合意」ペアと約1万9千件の「不一致」ペアを追加で生成可能であると推定しており、トレーニングデータの大幅な拡張が可能であると示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。