QUICK REVIEW

[論文レビュー] Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations

Sosuke Kobayashi|arXiv (Cornell University)|May 16, 2018

Topic Modeling被引用数 51

ひとこと要約

tldr: バイ-directional language modelから文脈的に予測された置換語を用いて語を置換する文脈的拡張を導入し、ラベル条件付きバリアントでラベル互換性を維持。CNNとRNNモデルのテキスト分類を改善。

ABSTRACT

We propose a novel data augmentation for labeled sentences called contextual augmentation. We assume an invariance that sentences are natural even if the words in the sentences are replaced with other words with paradigmatic relations. We stochastically replace words with other words that are predicted by a bi-directional language model at the word positions. Words predicted according to a context are numerous but appropriate for the augmentation of the original words. Furthermore, we retrofit a language model with a label-conditional architecture, which allows the model to augment sentences without breaking the label-compatibility. Through the experiments for six various different text classification tasks, we demonstrate that the proposed method improves classifiers based on the convolutional or recurrent neural networks.

研究の動機と目的

NLPのデータ拡張を動機づけ、タスク固有のルールなしで一般化を改善する。
文のパターンを拡張するために文脈予測語で語を置換することを提案する。
ラベルと互換性のない拡張を防ぐためにラベル条件付きLMを取り入れる。
CNNとRNNモデルを用いた6つのテキスト分類タスクで効果を実証する。

提案手法

周囲の文脈に基づいて各ターゲット位置の置換語を予測する双方向LSTM言語モデルを用いる。
拡張の強さを制御するために温度調整済み分布 p_tau(·|S∖{wi}) から置換語をサンプリングする。
文の文脈とラベルを連結してラベル整合的な置換を生成するラベル条件付きLMを導入する。
WikiText-103で文脈LMを事前学習し、各ラベル付きデータセットでラベル条件付きアーキテクチャでファインチューニングする。
拡張手法を比較する：同義語ベース、文脈的拡張、ラベル条件付き文脈拡張を、CNNおよびRNN分類器全体で比較する。
SST5、SST2、Subj、MPQA、RT、TRECデータセットで評価する。

実験結果

リサーチクエスチョン

RQ1文脈的拡張は同義語ベースの拡張よりも多様でラベル整合性のある語置換を提供するか？
RQ2ラベル条件付きLMを取り入れることで拡張の品質と分類器の性能は向上するか？
RQ3複数のテキスト分類タスクにおいて、文脈的拡張はCNNおよびRNN分類器にどのような影響を与えるか？

主な発見

Model	SST5	SST2	Subj	MPQA	RT	TREC	Avg
CNN	41.3	79.5	92.4	86.1	75.9	90.0	77.53
CNN w/ synonym	40.7	80.0	92.4	86.3	76.0	89.6	77.50
CNN w/ context	41.9	80.9	92.7	86.7	75.9	90.0	78.02
CNN + label	42.1	80.8	93.0	86.7	76.1	90.5	78.20
RNN	40.2	80.3	92.4	86.0	76.7	89.0	77.43
RNN w/ synonym	40.5	80.2	92.8	86.4	76.6	87.9	77.40
RNN w/ context	40.9	79.3	92.8	86.4	77.0	89.3	77.62
RNN + label	41.1	80.1	92.8	86.4	77.4	89.2	77.83

文脈的拡張はデータセットとモデル全体で同義語ベースの拡張より性能を向上させる。
ラベル条件付き拡張は平均で最良の精度をもたらす。
CNNとRNNの両方の分類器が文脈的拡張の恩恵を受け、SST5、SST2、Subj、MPQA、RT、TRECで利得を観察。
条件付きLMの上位予測はラベル意味論に一致し、ポジティブラベルでは肯定的語、ネガティブラベルでは否定的語への置換を示す（例：fantastic → ポジティブラベル下のポジティブ語、 → ネガティブラベル下のネガティブ語）。
総合平均精度の改善：ラベル追加でCNNが77.53から78.20へ、RNNが77.43から77.83へ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。