Skip to main content
QUICK REVIEW

[論文レビュー] Low Resource Text Classification with ULMFit and Backtranslation

Sam Shleifer|arXiv (Cornell University)|Mar 21, 2019
Topic Modeling参考文献 10被引用数 43
ひとこと要約

論文は、低リソース設定における IMDB での UL MFit ベースのテキスト分類を、バックトランスレーションが大幅に改善する一方でトークン摂動は効果がないことを示す。データが完全な場合、拡張の利点は限定的だが、テスト時拡張とアンサンブルは小さな改善を提供する。

ABSTRACT

In computer vision, virtually every state-of-the-art deep learning system is trained with data augmentation. In text classification, however, data augmentation is less widely practiced because it must be performed before training and risks introducing label noise. We augment the IMDB movie reviews dataset with examples generated by two families of techniques: random token perturbations introduced by Wei and Zou [2019] and backtranslation -- translating to a second language then back to English. In low resource environments, backtranslation generates significant improvement on top of the state of-the-art ULMFit model. A ULMFit model pretrained on wikitext103 and then fine-tuned on only 50 IMDB examples and 500 synthetic examples generated by backtranslation achieves 80.6% accuracy, an 8.1% improvement over the augmentation-free baseline with only 9 minutes of additional training time. Random token perturbations do not yield any improvements but incur equivalent computational cost. The benefits of training with backtranslated examples decreases with the size of the available training data. On the full dataset, neither augmentation technique improves upon ULMFit's state of the art performance. We address this by using backtranslations as a form of test time augmentation as well as ensembling ULMFit with other models, and achieve small improvements.

研究の動機と目的

  • 低ラベルデータ条件下で頑健なテキスト分類を動機づける。
  • 低リソース域での NLP のデータ拡張戦略(バックトランスレーションとトークン摂動)の評価。
  • ULMFIT のような事前学習済み言語モデルとバックトランスレーションの相互作用を評価。
  • 完全データセットに対する拡張の利得を救済するためのテスト時拡張とアンサンブルの活用を探る。

提案手法

  • ULMFIT アーキテクチャを用い、3 段階の訓練を実施(wikitext-103 での事前学習、IMDB でのドメイン内微調整、分類器のファインチューニング)。
  • 複数言語でのバックトランスレーションおよび Wei and Zou (2019) に従ったトークン摂動を用いて訓練データを拡張する。
  • 低リソース設定で訓練データサイズを 50 対 1000 例など varying に比較して拡張効果を評価。
  • バックトランスレーションをテスト時拡張(TTA)として用いることと、他モデルとのアンサンブルを試す。
  • 任意で Virtual Adversarial Training(VAT)とそのアブレーションでの影響を議論。
  • 完全データでの再現結果と元々公表された指標の比較を報告。

実験結果

リサーチクエスチョン

  • RQ1バックトランスレーションは低リソース設定における UL MFit ベースの感情分類を改善するか?
  • RQ2ULMFIT を使用する際、トークン摂動技術は拡張なしのベースラインより有利になるか?
  • RQ3データサイズが増えると拡張の利得はどのように変化し、完全データで持続するか?
  • RQ4バックトランスレーションをテスト時拡張やアンサンブルに活用して、完全データで追加の改善を生み出せるか?

主な発見

Table 2 headers: LanguagesError@N=50Error @N=1000
None0.2750.118
10 Languages0.1940.114
Spanish0.2330.111
Spanish, French0.2250.109
Spanish, French, Bengali0.2280.111
Bengali0.2410.113
  • 低リソース設定において、バックトランスレーションは拡張なしの UL MFit より顕著な改善をもたらす(特にラベル付き例が極めて少ない場合)。
  • トークン摂動法は低リソース設定でベースラインよりほとんど改善をもたらさない。
  • データ量が増えると拡張の利得は薄まり、完全 IMDB データセットでは消えることがある。
  • バックトランスレーションで作成した例を TTA やアンサンブルに用いると、完全データで小さな利得を生む。
  • 言語モデルの事前学習が拡張利得を支配し、強力な事前学習表現が得られる場合には拡張の利益は小さくなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。