QUICK REVIEW

[論文レビュー] Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models

Boxin Wang, Chejian Xu|arXiv (Cornell University)|Nov 4, 2021

Adversarial Robustness in Machine Learning参考文献 59被引用数 47

ひとこと要約

この論文では、GLUEタスクに14種類のテキスト攻撃手法を適用し、人間による検証付きのアノテーションを加えた高品質でマルチタスクのベンチマーク、Adversarial GLUE (AdvGLUE) を紹介する。主な貢献は、既存の多く攻撃が意味的に歪められた例を生成することを発見し、さらに堅牢なモデルですらAdvGLUEで著しく低い性能を示すことで、最先端の言語モデルにおける重大な堅牢性のギャップが明らかになったことである。

ABSTRACT

Large-scale pre-trained language models have achieved tremendous success across a wide range of natural language understanding (NLU) tasks, even surpassing human performance. However, recent studies reveal that the robustness of these models can be challenged by carefully crafted textual adversarial examples. While several individual datasets have been proposed to evaluate model robustness, a principled and comprehensive benchmark is still missing. In this paper, we present Adversarial GLUE (AdvGLUE), a new multi-task benchmark to quantitatively and thoroughly explore and evaluate the vulnerabilities of modern large-scale language models under various types of adversarial attacks. In particular, we systematically apply 14 textual adversarial attack methods to GLUE tasks to construct AdvGLUE, which is further validated by humans for reliable annotations. Our findings are summarized as follows. (i) Most existing adversarial attack algorithms are prone to generating invalid or ambiguous adversarial examples, with around 90% of them either changing the original semantic meanings or misleading human annotators as well. Therefore, we perform a careful filtering process to curate a high-quality benchmark. (ii) All the language models and robust training methods we tested perform poorly on AdvGLUE, with scores lagging far behind the benign accuracy. We hope our work will motivate the development of new adversarial attacks that are more stealthy and semantic-preserving, as well as new robust language models against sophisticated adversarial attacks. AdvGLUE is available at https://adversarialglue.github.io.

研究の動機と目的

大規模言語モデルに対するテキスト攻撃に対する原理的かつ包括的なベンチマークの欠如を是正すること。
14種類の攻撃手法をGLUEタスクに体系的かつ一貫して適用し、多様で代表的なベンチマークを生成すること。
人間のアノテーターによる評価を通じて、意味的整合性を保った例のみを残すフィルタリングパイプラインを実装し、誤解を招くか無効な例を排除すること。
現実的で高品質な攻撃例に対して、現在の言語モデルおよび堅牢な学習手法の脆弱性を明らかにすること。
より巧妙で意味を保った攻撃と、より堅牢な言語モデルの開発を促進すること。

提案手法

GLUEベンチマークの全タスクに14種類の異なるテキスト攻撃手法を適用し、攻撃例を生成すること。
人間のアノテーターが意味的に変更された、または曖昧と判断した攻撃例を除去するきめ細やかなフィルタリングパイプラインを実装すること。
最終的な攻撃例を人間によるアノテーションで検証し、高品質で信頼性があり意味のある摂動を保証すること。
GLUEの元のタスク分布と評価プロトコルを維持するマルチタスクベンチマーク（AdvGLUE）を構築すること。
AdvGLUE上で複数の事前学習済みおよび堅牢に微調整された言語モデルを評価し、攻撃条件下での性能低下を測定すること。
人間による評価を用いて、攻撃例と元の例との意味的類似度およびアノテーターをだます可能性を評価すること。

実験結果

リサーチクエスチョン

RQ1既存の攻撃手法は、元の意味を保ち、人間にとって誤解を招かない攻撃例をどれくらい生成できるか？
RQ2最先端の言語モデルは、高品質で人間による検証付きの攻撃ベンチマークであるAdvGLUEにおいて、標準的なGLUEタスクでの性能と比べてどの程度の性能を示すか？
RQ3異なるモデルアーキテクチャーや堅牢学習手法において、良性精度と堅牢性のギャップはどれほど大きいか？
RQ4意味的摂動はモデルの性能にどのように影響するのか？これにより、現在のモデルの脆弱性がどのようなものであるかが明らかになるか？
RQ5AdvGLUEのようなマルチタスクで人間による検証付きのベンチマークは、モデルの堅牢性の評価と向上に信頼できる基準として機能できるか？

主な発見

既存の攻撃手法によって生成された攻撃例の約90％が、元の意味的意味を歪めたり、人間のアノテーターをだますものであり、現在の攻撃手法の品質が低いことが示された。
人間によるフィルタリングを経て生成されたAdvGLUEベンチマークには、意味的に忠実な高品質な攻撃例のみが含まれており、信頼できる評価が保証された。
検証された全言語モデル、包括的に堅牢に微調整されたモデルを含め、すべてがAdvGLUEでは良性GLUE精度と比べて著しく低い性能を示した。
AdvGLUEにおける性能のギャップは顕著であり、現在の堅牢性対策が、洗練された意味保持攻撃に対しては不十分であることが示された。
結果として、より巧妙で意味を保った攻撃を生成できる新しい攻撃手法と、改善された堅牢学習戦略の開発が、今後急務であることが強調された。
AdvGLUEはhttps://adversarialglue.github.ioにて公開されており、将来的なモデル堅牢性研究を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。