Skip to main content
QUICK REVIEW

[논문 리뷰] Revisiting Self-Training for Neural Sequence Generation

Junxian He, Jiatao Gu|arXiv (Cornell University)|2019. 09. 30.
Topic Modeling참고 문헌 36인용 수 139
한 줄 요약

본 논문은 신경 시퀀스 생성에서의 자기훈련(self-training)을 재조명하고, 드롭아웃과 입력 잡음(노이즈)을 추가한 노이즈 있는 자기훈련이 MT와 요약의 준지도 학습을 크게 향상시키며, 때때로 저자원 설정에서 특히 백번역(백-번역)을 능가하기도 한다.

ABSTRACT

Self-training is one of the earliest and simplest semi-supervised methods. The key idea is to augment the original labeled dataset with unlabeled data paired with the model's prediction (i.e. the pseudo-parallel data). While self-training has been extensively studied on classification problems, in complex sequence generation tasks (e.g. machine translation) it is still unclear how self-training works due to the compositionality of the target space. In this work, we first empirically show that self-training is able to decently improve the supervised baseline on neural sequence generation tasks. Through careful examination of the performance gains, we find that the perturbation on the hidden states (i.e. dropout) is critical for self-training to benefit from the pseudo-parallel data, which acts as a regularizer and forces the model to yield close predictions for similar unlabeled inputs. Such effect helps the model correct some incorrect predictions on unlabeled data. To further encourage this mechanism, we propose to inject noise to the input space, resulting in a "noisy" version of self-training. Empirical study on standard machine translation and text summarization benchmarks shows that noisy self-training is able to effectively utilize unlabeled data and improve the performance of the supervised baseline by a large margin.

연구 동기 및 목표

  • 자연어 시퀀스 생성 작업(예: 기계 번역 및 텍스트 요약)에서 자기훈련이 어떻게 작동하는지 평가한다.
  • 자기훈련이 이득을 주는 이유를 파악하고, 이득을 얻는 핵심 요인을 결정한다.
  • 라벨이 없는 데이터를 더 잘 활용하기 위한 노이즈 있는 자기훈련 변형을 제안하고 검증한다.
  • seq2seq 모델에서 자기훈련이 개선을 가져다주는 시점과 방법에 대한 실용적인 가이드를 제공한다.

제안 방법

  • L에서 학습된 기본 모델과 비 라벨 데이터 U에서 얻은 의사 병렬 데이터 S를 사용하여 조건부 시퀀스 생성을 위한 고전적 자기훈련을 형식화한다.
  • S ∪ L에서 새 모델을 학습(먼저 의사 데이터에서 학습하고, 그다음 실제 데이터로 미세조정)하면 기준선보다 성능이 개선될 수 있음을 보인다.
  • 의사 타깃을 생성하기 위해 디코딩 전략(빔 서치 vs 샘플링)을 실험한다.
  • 의사 학습 중 드롭아웃을 주요 규제항으로 도입하여 유사한 입력에 대해 유사한 예측을 유도하는 모델의 규제 효과를 확인한다.
  • 노이즈를 추가로 주입하는 입력 perturbation과 함께 노이즈 있는 자기훈련(noisy self-training)을 제안하여 입력-출력 매핑을 더 부드럽게 한다.
  • MT(WMT 2014 En–De, FloRes En–Ne) 및 Gigaword 요약에서 고자원 및 저자원 설정을 대상으로 경험적으로 검증한다.

실험 결과

연구 질문

  • RQ1자연어 시퀀스 생성 작업(예: 기계 번역 및 요약)에서 자기훈련은 어떻게 작동하는가?
  • RQ2자기훈련으로 인한 이득에 기여하는 요인은 무엇이며, '나쁜' 의사 타깃이 문제인가?
  • RQ3입력 및 내부 표현에 노이즈를 추가한 노이즈 있는 자기훈련이 비 라벨 데이터를 다양한 작업과 자원 설정에서 더 잘 활용하도록 개선할 수 있는가?

주요 결과

  • 자기훈련은 신경 시퀀스 생성 작업에서 감독 학습 대비 상당한 개선을 이끈다.
  • 의사 학습 동안 교사/모델에 대한 드롭아웃은 대부분의 이득을 주도하는 핵심 요인으로, 라벨이 없는 데이터에서 일관된 예측을 촉진하는 규제 역할을 한다.
  • 빔 검색 디코딩은 이득에 약간 기여하지만, 드롭아웃에 의해 유도된 입력/출력의 교란이 주된 개선 원천이다.
  • 의사 학습 과정에 입력 노이즈를 추가하는 노이즈 있는 자기훈련은 기계 번역과 텍스트 요약 벤치마크 전반에서 성능을 더욱 향상시킨다.
  • WMT English–German 및 FloRes English–Nepali에서 노이즈 있는 자기훈련은 많은 설정에서 기준선보다 1–6 BLEU 포인트를 상회하며, 일부 경우에는 병렬 데이터가 제한된 상황에서 백-번역과 견주어도 뒤지지 않는다.
  • 텍스트 요약(Gigaword)에서 노이즈 있는 자기훈련은 종종 백-번역을 능가하고, 병렬 데이터가 더 작을 때 특히 우수하며 전체 데이터 사전학습 상황에서는 최첨단에 근접한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.