Skip to main content
QUICK REVIEW

[논문 리뷰] Data Noising as Smoothing in Neural Network Language Models

Ziang Xie, Sida I. Wang|arXiv (Cornell University)|2017. 03. 07.
Topic Modeling참고 문헌 23인용 수 173
한 줄 요약

이 논문은 신경 LM에서 입력 데이터 노이징을 n-그램 모델의 스무딩과 연결하고, 보간(interpolation) 및 Kneser-Ney에 상응하는 노이징 스킴을 도출하며, 언어 모델링과 기계 번역에서 규제화의 이점을 입증한다.

ABSTRACT

Data noising is an effective technique for regularizing neural network models. While noising is widely adopted in application domains such as vision and speech, commonly used noising primitives have not been developed for discrete sequence-level settings such as language modeling. In this paper, we derive a connection between input noising in neural network language models and smoothing in $n$-gram models. Using this connection, we draw upon ideas from smoothing to develop effective noising schemes. We demonstrate performance gains when applying the proposed schemes to language modeling and machine translation. Finally, we provide empirical analysis validating the relationship between noising and smoothing.

연구 동기 및 목표

  • 언어 모델링에서 데이터 희소성 문제를 다루기 위해 신경 시퀀스 모델용 데이터 증강을 동기화한다.
  • 입력 노이즈와 고전적인 n-그램 스무딩 방법 사이의 연결을 형식화한다.
  • 인터레이션(interpolation)과 고급 스무딩(예: Kneser-Ney)을 반영하는 노이징 스킴을 개발한다.

제안 방법

  • 최대 우도 추정으로 학습된 RNN/LSTM 언어 모델을 모델링한다.
  • 입력 컨텍스트에 대해 unigram(단어 1-그램) 및 blank 노이징 스킴을 도입한다.
  • 노이즈 하에서의 기대 의사카운트가 더 높은 차수 모델과 더 낮은 차수 모델 간의 보간에 해당함을 보인다.
  • discounting 및 Kneser-Ney 스무딩에서 영감을 받은 적응적 노이징 확률과 더 스마트한 제안 분포를 제시한다.
  • 입력 시퀀스와 출력 시퀀스를 모두 노이즈 처리하여 인코더-디코더/seq2seq 설정으로 확장한다.

실험 결과

연구 질문

  • RQ1입력 데이터 노이징이 n-그램 언어 모델에서 사용되는 스무딩 기법을 근사할 수 있는가?
  • RQ2적응적 노이징 및 더 나은 제안 분포가 신경 시퀀스 모델의 규제화를 개선할 수 있는가?
  • RQ3노이징 기반 스킴이 언어 모델링 및 기계 번역에서 이득으로 이어지는가?

주요 결과

  • 언그램 노이징은 p(xt|xt-1)가 더 높은 차수 모델과 낮은 차수 모델의 혼합에 해당하는 것으로 보인다(인터폴레이션).
  • Blank 노이징과 unigram 노이징은 n-그램 모델의 인터폴레이션 스무딩 유사체로 작동한다.
  • 적응적 디스카운팅은 다양한 감마 값에서 노이징의 효과를 개선한다.
  • 노이즈를 적용한 모델은 unnoised보다 낮은 차수 분포(균등분포 및 unigram 빈도)에 더 가까운 소프트맥스 분포를 생성하여 스무딩 유추를 검증한다.
  • 기계 번역의 경우 blank, unigram, bigram Kneser-Ney 노이징이 (baseline dropout만 사용할 때보다) BLEU 성능 향상을 제공한다.
  • 펜 대 Treebank와 Text8의 실험에서 bigram KN 노이징으로 perplexity가 개선되었고 MT는 baselines 대비 대략 +0.7 to +1.4의 BLEU 향상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.