QUICK REVIEW

[論文レビュー] Machine Generation and Detection of Arabic Manipulated and Fake News

El Moatez Billah Nagoudi, AbdelRahim Elmadany|arXiv (Cornell University)|Nov 5, 2020

Misinformation and Its Impacts参考文献 47被引用数 41

ひとこと要約

この論文は、POSタグ付きデータと語彙埋め込みを用いてアラビア語の改変（偽情報を含む可能性がある）ニュースを自動生成する簡便な方法を提案し、AraNews+という大規模なPOS-taggedアラビア語ニュースデータセットを紹介、改変ニュース検出器と偽情報検出器を構築し、アラビア語偽ニュース検出で最先端の結果を達成している。

ABSTRACT

Fake news and deceptive machine-generated text are serious problems threatening modern societies, including in the Arab world. This motivates work on detecting false and manipulated stories online. However, a bottleneck for this research is lack of sufficient data to train detection models. We present a novel method for automatically generating Arabic manipulated (and potentially fake) news stories. Our method is simple and only depends on availability of true stories, which are abundant online, and a part of speech tagger (POS). To facilitate future work, we dispense with both of these requirements altogether by providing AraNews, a novel and large POS-tagged news dataset that can be used off-the-shelf. Using stories generated based on AraNews, we carry out a human annotation study that casts light on the effects of machine manipulation on text veracity. The study also measures human ability to detect Arabic machine manipulated text generated by our method. Finally, we develop the first models for detecting manipulated Arabic news and achieve state-of-the-art results on Arabic fake news detection (macro F1=70.06). Our models and data are publicly available.

研究の動機と目的

データ不足の中で偽情報および機械生成アラビア語ニュースの検出を動機づける。
オフ・ザ・シェルフ研究を支援する大規模なPOSタグ付きアラビア語ニュースデータセットAraNewsを紹介。
単語埋め込みを用いてトークンを置換する簡単な自動操作手法を提案。
検出モデルを訓練するための改変ニュースデータセットATB+とAraNews+を作成。
改変テキスト検出（MTD）と偽ニュース検出（FND）モデルを評価し、優れた結果とデータ拡張の利点を示す。

提案手法

ATBとAraNewsを真の物語の種として使用する。
データにPOSタグを付与する（ATBは既にタグ付け済み、AraNewsはMADAMIRAでタグ付け）。
アラビア語コーパス上で300次元のAraNewsEmb語嵌め込みを訓練。
POSによる候補トークンの識別: N_PROP, N_NUM, ADJ, ADJ_COMP, ADJ_NUM, NEG_PART。
各候補トークンをAraNewsEmbのk近傍トークンで置換し、文字レベルの類似度閾値を50%として使用。
否定を除去し、桁をランダムな数字に置換して改変テキストを作成。

実験結果

リサーチクエスチョン

RQ1自動的なアラビア語テキスト操作は外部検査なしで説得力のある改変/偽ニュースを生成できるか？
RQ2提案手法で生成された機械操作のアラビア語テキストを人間はどれくらい検出できるか？
RQ3生成された改変テキストで訓練された検出器はアラビア語の偽ニュース検出を改善できるか？
RQ4AraNews+およびATB+データの改変テキスト検出と偽ニュース検出への影響は何か？

主な発見

データセット	モデル	開発用精度	開発用F1	テスト用精度	テスト用F1
ATB+	mBERT	77.16	77.08	77.42	77.36
ATB+	XLM-R Base	81.72	81.72	83.22	83.20
ATB+	XLM-R Large	82.41	82.38	81.38	81.36
ATB+	AraBERT	83.19	83.17	82.63	82.62
AraNews+	mBERT	79.39	79.38	83.51	83.52
AraNews+	XLM-R Base	82.77	82.56	86.09	86.08
AraNews+	XLM-R Large	82.12	82.10	86.35	86.35
AraNews+	AraBERT	87.21	87.21	89.23	89.25

ATB+とAraNews+での大規模多言語モデルを用いた最良の改変テキスト検出（MTD）性能は、AraNews+（テストセット）でAraBERTを用いてマクロF1 89.25に達する。
MTD結果はATB+の方が AraNews+ より改変テキストの検出が難しいことを示す（F1: 83.20 vs 89.25、各テストセットで）。
外部の真偽基準としてKhoujaを使用した偽ニュース検出（FND）では、生成データによるデータ拡張（AraNews+を2倍）によりF1 70.06となりベースラインを上回る。
生成データだけを用いたゼロショットFNDは顕著なF1（最大52.71）を達成し、金標本トレーニングデータなしで検出タスクに生成データが有用であることを示す。
著者らは研究利用のためAraNews、ATB+、AraNews+、および検出モデルを公表している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。