[論文レビュー] Textual Adversarial Attack as Combinatorial Optimization
本稿では、テキストの adversarial 攻撃を組合せ最適化問題として定式化する、画期的な単語レベルの adversarial 攻撃モデルを提案する。セメメに基づく語の置換手法と粒子群最適化(PSO)に基づく探索アルゴリズムを統合することで、3つのベンチマークデータセットにおいてBiLSTMおよびBERTモデルに対して顕著に高い攻撃成功率を達成し、より高品質な adversarial 例を生成する。既存のベースラインを上回る性能を発揮する。
Adversarial attacks are carried out to reveal the vulnerability of deep neural networks. Textual adversarial attacking is challenging because text is discrete and a small perturbation can bring significant change to the original input. Word-level attacking, which can be regarded as a combinatorial optimization problem, is a well-studied class of textual attack methods. However, existing word-level attack models are far from perfect, largely because unsuitable search space reduction methods and inefficient optimization algorithms are employed. In this paper, we propose a novel attack model, which incorporates the sememe-based word substitution method and particle swarm optimization-based search algorithm to solve the two problems separately. We conduct exhaustive experiments to evaluate our attack model by attacking BiLSTM and BERT on three benchmark datasets. Experimental results demonstrate that our model consistently achieves much higher attack success rates and crafts more high-quality adversarial examples as compared to baseline methods. Also, further experiments show our model has higher transferability and can bring more robustness enhancement to victim models by adversarial training. All the code and data of this paper can be obtained on this https URL.
研究の動機と目的
- 既存の単語レベル adversarial 攻撃モデルが、最適でない探索空間の削減と非効率な最適化に起因する限界を是正すること。
- 単語レベルの攻撃を組合せ最適化問題としてモデル化することで、テキストにおける adversarial 例の質と成功率を向上させること。
- adversarial 例の移行性を高め、被害者モデルのより強固な adversarial 訓練を可能とすること。
- 離散的テキスト空間における意味の保存と攻撃効果性の両立を図る手法の開発。
提案手法
- 攻撃モデルは、単語レベルの置換を組合せ最適化問題として扱い、離散的テキスト空間における摂動を体系的に探索する。
- 意味的整合性を保つために、意味知識に裏付けられた同義語の選択を可能にするセメメに基づく語の置換手法を採用する。
- 可能な語の置換の巨大で離散的な探索空間を効率的に走破するため、粒子群最適化(PSO)に基づく探索アルゴリズムを用いる。
- PSOアルゴリズムは、個々の最良解とグローバルな最良解に基づいて粒子の位置を反復的に更新することで、候補となる adversarial 例を改善する。
- セメメ類似度を介した意味的制約の統合により、摂動の過程で文法的・意味的劣化を回避する。
- 攻撃成功と意味の保存のバランスを取る損失関数が、PSOに駆動される最適化をガイドする。
実験結果
リサーチクエスチョン
- RQ1組合せ最適化フレームワークは、単語レベルのテキスト adversarial 攻撃の成功率と品質を向上させ得るか?
- RQ2セメメに基づく置換の統合は、adversarial 例における意味的整合性をどのように向上させるか?
- RQ3PSOに基づく探索戦略は、従来のヒューリスティック的またはグリーディー探索手法に比べ、adversarial 攻撃性能でどれほど優れているか?
- RQ4本モデルは、ベースライン手法と比較して、異なるモデルやデータセット間でより高い移行性を示すか?
- RQ5本モデルが生成する adversarial 例は、adversarial 訓練を通じて被害者モデルの耐性を向上させ得るか?
主な発見
- 本モデルは、3つのベンチマークデータセットにおいて、BiLSTMおよびBERTモデルに対して、ベースライン手法と比較して顕著に高い攻撃成功率を達成した。
- 本モデルが生成した adversarial 例は、意味を保持しつつ深層ニューラルネットワークを効果的にだませる、より高い意味的品質を示した。
- 本モデルは強力な移行性を示し、未観測のモデルに対しても、既存のアプローチを上回る高い成功率で攻撃に成功した。
- 本モデルからの例を用いた adversarial 訓練により、より耐性のある被害者モデルが得られたことから、本手法がモデル耐性の向上に有効であることが示された。
- セメメに基づく置換とPSOに基づく探索の組み合わせは、個々の構成要素やベースライン攻撃戦略と比較して、攻撃効果性と効率性の両面で優れた性能を発揮した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。