[논문 리뷰] Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations
맥락적으로 예측된 대체어를 통해 단어를 교체하는 컨텍스트 기반 증강을 도입하며, 라벨 호환성을 유지하기 위해 라벨-조건화 변형을 포함하여 CNN과 RNN 모델에서 텍스트 분류를 개선한다.
We propose a novel data augmentation for labeled sentences called contextual augmentation. We assume an invariance that sentences are natural even if the words in the sentences are replaced with other words with paradigmatic relations. We stochastically replace words with other words that are predicted by a bi-directional language model at the word positions. Words predicted according to a context are numerous but appropriate for the augmentation of the original words. Furthermore, we retrofit a language model with a label-conditional architecture, which allows the model to augment sentences without breaking the label-compatibility. Through the experiments for six various different text classification tasks, we demonstrate that the proposed method improves classifiers based on the convolutional or recurrent neural networks.
연구 동기 및 목표
- 작업 특화 규칙 없이 일반화를 향상시키기 위한 NLP 데이터 증강의 동기 부여.
- 단어를 맥락에서 예측된 대체어로 대체하여 문장 패턴을 확장하는 방법 제안.
- 라벨 호환성 없는 증강을 방지하기 위해 라벨-조건화 LM을 도입.
- CNN 및 RNN 모델로 여섯 가지 텍스트 분류 작업에서 효과를 시연.
제안 방법
- 양방향 LSTM 언어 모델을 사용하여 주변 맥락을 바탕으로 각 목표 위치의 대체 단어를 예측.
- 온도 조정 분포 p_tau(·|S∖{wi})에서 대체어를 샘플링하여 증강 강도를 제어.
- 문장 맥락과 라벨을 연결하여 라벨 일관성 있는 대체를 생성하는 라벨-조건화 LM 도입.
- WikiText-103에서 컨텍스추얼 LM 사전 학습 후 각 라벨이 있는 데이터셋에서 라벨-조건 구조로 미세조정.
- 증강 방법 비교: 동의어 기반, 맥락 기반 증강, 라벨 조건을 포함한 맥락 기반 증강을 CNN 및 RNN 분류기에 걸쳐 비교.
- SST5, SST2, Subj, MPQA, RT, TREC 데이터셋에서 평가.
실험 결과
연구 질문
- RQ1맥락 기반 증강이 동의어 기반 증강보다 더 다양하고 라벨 일관적인 단어 대체를 제공하는가?
- RQ2라벨-조건화 LM의 도입이 증강 품질과 분류자 성능을 향상시키는가?
- RQ3다양한 텍스트 분류 작업에서 맥락 기반 증강이 CNN 및 RNN 분류기에 어떤 영향을 미치는가?
주요 결과
| 모델 | STT5 | STT2 | Subj | MPQA | RT | TREC | 평균 |
|---|---|---|---|---|---|---|---|
| CNN | 41.3 | 79.5 | 92.4 | 86.1 | 75.9 | 90.0 | 77.53 |
| CNN w/ synonym | 40.7 | 80.0 | 92.4 | 86.3 | 76.0 | 89.6 | 77.50 |
| CNN w/ context | 41.9 | 80.9 | 92.7 | 86.7 | 75.9 | 90.0 | 78.02 |
| CNN + label | 42.1 | 80.8 | 93.0 | 86.7 | 76.1 | 90.5 | 78.20 |
| RNN | 40.2 | 80.3 | 92.4 | 86.0 | 76.7 | 89.0 | 77.43 |
| RNN w/ synonym | 40.5 | 80.2 | 92.8 | 86.4 | 76.6 | 87.9 | 77.40 |
| RNN w/ context | 40.9 | 79.3 | 92.8 | 86.4 | 77.0 | 89.3 | 77.62 |
| RNN + label | 41.1 | 80.1 | 92.8 | 86.4 | 77.4 | 89.2 | 77.83 |
- 맥락 기반 증강은 데이터셋과 모델 전반에서 동의어 기반 증강보다 성능을 향상시킨다.
- 라벨-조건화 증강이 평균적으로 최상의 정확도를 얻는다.
- CNN과 RNN 분류기 모두 맥락 기반 증강의 이점을 얻으며 SST5, SST2, Subj, MPQA, RT 및 TREC에서 이득이 관찰된다.
- 조건부 LM의 최상 예측은 라벨 의미와 일치하여 긍정 라벨에서 긍정 단어로, 부정 라벨에서 부정 단어로 대체되는 등 긍정-부정 라벨 간의 대체가 관찰된다.
- 전반적 평균 정확도 향상: CNN은 +label로 77.53에서 78.20으로, RNN은 +label로 77.43에서 77.83으로 증가.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.