QUICK REVIEW

[論文レビュー] Adversarial attacks against Fact Extraction and VERification

James Thorne, Andreas Vlachos|arXiv (Cornell University)|Mar 13, 2019

Adversarial Robustness in Machine Learning参考文献 29被引用数 22

ひとこと要約

本稿では、FEVERデータセットの主張を変更することで、意味関係（entailment関係）を維持または変更した敵対的例を生成するルールベース手法を提案する。実験の結果、最先端のモデルがこれらの敵対的例において最大29.16%の精度低下を示し、学習データ分布外でのモデルの頑健性と一般化性能の脆弱性が浮き彫りになった。

ABSTRACT

This paper describes a baseline for the second iteration of the Fact Extraction and VERification shared task (FEVER2.0) which explores the resilience of systems through adversarial evaluation. We present a collection of simple adversarial attacks against systems that participated in the first FEVER shared task. FEVER modeled the assessment of truthfulness of written claims as a joint information retrieval and natural language inference task using evidence from Wikipedia. A large number of participants made use of deep neural networks in their submissions to the shared task. The extent as to whether such models understand language has been the subject of a number of recent investigations and discussion in literature. In this paper, we present a simple method of generating entailment-preserving and entailment-altering perturbations of instances by common patterns within the training data. We find that a number of systems are greatly affected with absolute losses in classification accuracy of up to $29\%$ on the newly perturbed instances. Using these newly generated instances, we construct a sample submission for the FEVER2.0 shared task. Addressing these types of attacks will aid in building more robust fact-checking models, as well as suggest directions to expand the datasets.

研究の動機と目的

FEVERデータセットで学習された要約モデルの敵対的摂動に対する頑健性を評価すること。
単純なルールベースの主張変換が、モデルの脆弱性を露呈する有効な敵対的例を生成できるかどうかを調査すること。
FEVER2.0共同タスクの「break-it」フェーズのベースラインを提供するため、敵対的インスタンスを生成・評価すること。
これらの攻撃が、要約パイプラインの情報検索部と自然言語推論（NLI）部に与える影響を評価すること。
今後のNLP要約検証分野におけるモデルの頑健性と敵対的一般化に関する研究を支援するため、ツールとデータを公開すること。

提案手法

FEVERデータセットの主張に対してルールベースの変換を適用し、意味関係を維持または変更した新たなインスタンスを生成すること。
元の主張と同一の証拠を使用することで、新たな証拠抽出を必要とせず、主張レベルの摂動に焦点を当てる。
証拠との論理的関係に基づき、変換された主張を「サポートされる」「反証される」「情報不足」の3ラベルに分類すること。
攻撃の効果を測定するために、敵対的インスタンスを誤分類するシステムの割合を計算すること。
生成された主張の30%について手動での評価を実施し、文法的正しさと提出ガイドラインへの適合を確認すること。
層別抽出を用いて、FEVER2.0の「break-it」フェーズ用にバランスの取れた1,000件の敵対的インスタンスのサンプルを構築すること。

実験結果

リサーチクエスチョン

RQ1ルールベースの主張摂動は、最先端の要約モデルの性能をどの程度低下させるか？
RQ2意味関係を維持する変換と意味関係を変更する変換の違いが、モデルの頑健性にどのように影響するか？
RQ3要約パイプラインのどのコンponent（情報検索部かNLI部か）が、これらの敵対的攻撃に対して最も脆弱であるか？
RQ4同じ敵対的例にさらされた場合、モデルの耐性はシステムごとにどのように異なるか？
RQ5単純で低コストなルールベース手法が、文法的に正しいとともに、モデル性能を著しく低下させる敵対的インスタンスを生成できるか？

主な発見

ルールベースの変換を用いた敵対的攻撃により、テストしたモデル全体で最大29.16%の精度低下が発生し、損失は11.32%から29.16%の範囲にわたりました。
元のFEVER共同タスクで最高成績を収めたモデル（Papelo）は、敵対的評価において最も頑健で、63.16%の耐性スコアを達成しました。
元のタスクで2位だったUCLシステムは、1位のUNCシステムを敵対的評価で上回り、データ使用方法や一般化性能の差が顕著に現れました。
意味関係を維持する変換は、提出された敵対的主張の約60%を占めており、モデルの弱みを露呈するのにより効果的でした。
手動評価の結果、生成された敵対的主張の90%が文法的に正しく、提出ガイドラインに適合していました。残りの10%は言語的複雑さや体系的誤りにより失敗しました。
手動フィルタリング後の調整済み効果スコアは56.32%であり、攻撃の有効性と主張の品質の両方を反映しています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。