[論文レビュー] Adversarial Training Methods for Semi-Supervised Text Classification
著者らはRNNの単語埋め込みを摂動させることでテキストに対して敵対的学習と仮想敵対的学習を拡張し、複数の半教師ありおよび监督付きテキストタスクで最先端の結果を達成。IMDBでのテスト誤差5.91%は高い性能を示す。
Adversarial training provides a means of regularizing supervised learning algorithms while virtual adversarial training is able to extend supervised learning algorithms to the semi-supervised setting. However, both methods require making small perturbations to numerous entries of the input vector, which is inappropriate for sparse high-dimensional inputs such as one-hot word representations. We extend adversarial and virtual adversarial training to the text domain by applying perturbations to the word embeddings in a recurrent neural network rather than to the original input itself. The proposed method achieves state of the art results on multiple benchmark semi-supervised and purely supervised tasks. We provide visualizations and analysis showing that the learned word embeddings have improved in quality and that while training, the model is less prone to overfitting. Code is available at https://github.com/tensorflow/models/tree/master/research/adversarial_text.
研究の動機と目的
- 半教師ありテキスト分類のための堅牢な正則化を動機づける。
- 埋め込みを摂動させることで高次元で疎なテキスト入力に対して敵対的学習を適用する。
- 多様なテキスト分類ベンチマークで経験的な性能向上を示す。
- 敵対的学習が単語埋め込みとモデルの一般化に与える影響を分析する。
提案手法
- bounded normを持つ単語埋め込みを摂動してテキスト入力に対する敵対的な例を作成する。
- シーケンスに対してlog p(y|s;θ)の勾配を用いて正規化された埋め込みの列上にr_advを定義する。
- 無ラベルデータを用いて局所出力分布の滑らかさを促すKL発散でr_vadvを定義する。
- ラベル付きデータとラベルなしデータの両方で再current language modelを用いて埋め込みとLSTMを事前訓練する。
- 標準損失にL_advおよび/またはL_vadvを組み合わせた目的関数で訓練する。
- 複数のデータセット(IMDB, Elec, Rotten Tomatoes, DBpedia, RCV1)で単方向および双方向LSTMの両方を用いて評価する。
実験結果
リサーチクエスチョン
- RQ1敵対的学習はテキスト分類器の一般化と頑健性を改善するか。
- RQ2仮想敵対的学習は unlabeledデータを用いた半教師ありテキスト分類へ利益を拡張できるか。
- RQ3敵対的摂動は learned word embeddings とモデル表現にどのような影響を与えるか。
- RQ4提案手法は多様なデータセットで最先端の supervised および semi-supervised テキスト分類法とどのように比較されるか。
主な発見
- IMDBでは仮想敵対的学習が5.91%のテスト誤差を達成し、単方向LSTMを用いながら最先端に近い性能を示す。
- 敵対的学習だけで過剰適合を減らしベースラインより頑健性を向上させる;敵対的および仮想敵対的学習を組み合わせると競争力のある結果を得られる。
- ElecおよびRCV1では本手法が最先端性能に到達または上回り、Adversarial+Virtual Adversarialが Elecで5.40%、RCV1では構成に応じて6.68–6.97%の誤差を達成。
- Rotten Tomatoesでは敵対的手法はベースラインより改善(16.6–16.8% 対 17.9%)、一方で単独の仮想敵対的学習は短いラベル付きデータのために劣ることがある。
- DBpediaでは敵対的および仮想敵対的学習がベースラインより改善(0.79%と0.76%の誤差、0.90%からの改善)。
- 敵対的/仮想敵対的学習で学習された埋め込みは、基準値およびランダム摂動と比較して意味的分離が改善(例:「good」と「bad」の近傍が改善)を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。