Skip to main content
QUICK REVIEW

[論文レビュー] EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

Jason Wei, Kai Zou|arXiv (Cornell University)|Jan 31, 2019
Topic Modeling参考文献 33被引用数 197
ひとこと要約

この論文は EDA を紹介します。簡単な4つのテキスト拡張操作(同義語置換、ランダム挿入、ランダム入れ替え、ランダム削除)により、特に小規模データセットで外部モデルを必要とせず、テキスト分類性能を向上させます。

ABSTRACT

We present EDA: easy data augmentation techniques for boosting performance on text classification tasks. EDA consists of four simple but powerful operations: synonym replacement, random insertion, random swap, and random deletion. On five text classification tasks, we show that EDA improves performance for both convolutional and recurrent neural networks. EDA demonstrates particularly strong results for smaller datasets; on average, across five datasets, training with EDA while using only 50% of the available training set achieved the same accuracy as normal training with all available data. We also performed extensive ablation studies and suggest parameters for practical use.

研究の動機と目的

  • NLPにおけるシンプルで普遍的なデータ拡張の必要性を動機づける。
  • ラベルの整合性を保つ4つの軽量な拡張操作を提案する。
  • 複数のデータセットとモデルアーキテクチャ全体でEDAを評価し、頑健性と有用性を評価する。
  • 実務タスクでEDAを使用する際の実用的なパラメータ設定とガイドラインを特定する。

提案手法

  • 同義語置換、ランダム挿入、ランダム入れ替え、ランダム削除の4つの拡張操作を定義する。
  • 編集量nを文の長さに比例してパラメータalphaで変更する;削除の確率pをalphaに設定する。
  • 元の文ごとにn_aug個の拡張文を生成する。
  • CNNとRNNアーキテクチャを用い、複数のシードで5つのベンチマークデータセットを評価する。
  • 各操作の寄与を評価するアブレーション研究を実施する。
  • 結果に基づく実用的な使用推奨を提供する。

実験結果

リサーチクエスチョン

  • RQ1単純なテキスト編集拡張は、複数のデータセットとモデルに渡ってテキスト分類性能を向上させるか?
  • RQ24つの拡張操作のうち、どれが最大の性能向上に寄与するのか、どのような条件下でか?
  • RQ3拡張レベルと拡張サンプル数は性能にどう影響するか、特に小規模データセットと大規模データセットでか?
  • RQ4潜在空間分析によって、拡張文は元のラベルを大きく保持しているか?

主な発見

Training Set SizeModel5002,0005,000full set
500RNN75.383.786.187.4
500+EDA79.184.487.388.3
500CNN78.685.687.788.3
500+EDA80.786.488.388.8
AverageAverage76.984.686.987.8
Average+EDA79.985.487.888.6
  • EDAはCNNとRNNモデルの両方で5つのデータセット全体の精度を改善します。
  • 平均改善は全データセットで0.8%、最小サブセット(N_train=500)で3.0%です。
  • 4つの操作すべてが改善に寄与し、alphaを約0.1とすると最適点となる。
  • 拡張サンプル数(n_aug)は小規模データセットでより効果的だが、 大規模データセットでは利得が頭打ちになる。
  • 拡張文は潜在空間のクラスタリング(t-SNE可視化)で示されるように、大半がラベルを保持します。
  • EDAはトレーニングデータが限られている場合に最も有益で、データ半量で同等の性能を実現します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。