Skip to main content
QUICK REVIEW

[논문 리뷰] Representation Degeneration Problem in Training Natural Language Generation Models

Jun Gao, Di He|arXiv (Cornell University)|2019. 07. 27.
Topic Modeling참고 문헌 29인용 수 105
한 줄 요약

논문은 가중치 결합(weight tying) 하에서 가능도 기반 학습으로 단어 임베딩이 좁은 원뿔로 수렴하는 표현 열화 문제를 식별하고, 이를 완화하기 위한 코사인 정규화 손실(MLE-CosReg)을 제안하여 언어 모델링 및 기계 번역 성능을 향상시킨다.

ABSTRACT

We study an interesting problem in training neural network-based models for natural language generation tasks, which we call the \\emph{representation degeneration problem}. We observe that when training a model for natural language generation tasks through likelihood maximization with the weight tying trick, especially with big training datasets, most of the learnt word embeddings tend to degenerate and be distributed into a narrow cone, which largely limits the representation power of word embeddings. We analyze the conditions and causes of this problem and propose a novel regularization method to address it. Experiments on language modeling and machine translation show that our method can largely mitigate the representation degeneration problem and achieve better performance than baseline algorithms.

연구 동기 및 목표

  • 가중치 결합이 있는 가능도 학습에서 NLG 과제의 단어 임베딩이 왜 열화되는지 이해를 촉진한다.
  • 임베딩이 수렴하는 조건을 분석하고 이를 은닉 상태 기하와 학습 역학과 연관지어 설명한다.
  • 임베딩 공간을 확장하고 모델 표현력을 향상시키기 위한 실용적 정규화를 제안한다.
  • 언어 모델링 및 기계 번역 벤치마크에서 제안된 방법을 실증적으로 검증한다.
  • 정규화가 임베딩 구조와 모델 성능에 미치는 영향을 통찰한다.

제안 방법

  • 트랜스포머 하에서 임베딩을 경험적으로 시각화하고 2D 프로젝션(SVD)을 사용하여 Word2Vec 및 분류 과제 임베딩과 비교한다.
  • 은닉 상태의 볼록 껍질과 층 정상화와의 연계를 통해 열화를 이론적으로 분석한다.
  • 정규화된 단어 임베딩 간의 쌍별 코사인 유사도를 최소화하는 코사인-정규화 최대우도 목표(MLE-CosReg)를 도출한다.
  • 정규화기가 모델의 표현 다양성을 증가시켜 임베딩 공간을 확장하는 민감도 분석과 정당성을 제시한다.
  • WikiText-2 언어 모델링과 WMT 2014 영어↔독일어 번역에서 대조 기법과의 광범위한 실험을 수행한다.

실험 결과

연구 질문

  • RQ1가능도 손실과 가중치 결합으로 NLG 모델을 학습할 때 단어 임베딩이 열화하는 원인은 무엇인가?
  • RQ2은닉 상태의 기하학과 고빈도/저빈도 단어의 최적화 역학이 열화에 어떻게 기여하는가?
  • RQ3정규화가 모델의 복잡성을 증가시키지 않으면서 정규화된 단어 임베딩 간의 코사인 유사도에 초점을 맞추면 열화를 완화할 수 있는가?
  • RQ4MLE-CosReg로 재구성된 임베딩은 언어 모델의 perplexity와 기계 번역의 BLEU 점수에 measurable한 이득으로 이어지는가?

주요 결과

  • 가중치 결합이 있는 NLG 모델의 임베딩은 좁은 원뿔에 군집하고 양의 상관관계를 보이는 반면, Word2Vec이나 표준 분류 임베딩과는 다르다.
  • 열화는 은닉 상태의 구조와 연관되며, 은닉 상태의 볼록 껍질이 원점을 포함하지 않으면 모든 방향에 균일하게 음의 방향이 존재하여 일부 방향으로 저빈도 단어 임베딩이 무한대로 발산하도록 만든다.
  • 실제 희소 단어 설정에서도 최적화는 나타나지 않은 토큰처럼 작동하여 저빈도 단어의 임베딩 수렴을 촉진한다.
  • 코사인 정규화 항(MLE-CosReg)을 표준 MLE 목표와 함께 도입하면 임베딩 공간이 확장되어 표현 다양성이 증가하고 지배적 고유값 집중이 감소한다.
  • 실험 결과 MLE-CosReg는 언어 모델링에서 WikiText-2의 perplexity를 최대 2.0 포인트 향상시키고, 번역에서는 EN→DE 1.08, DE→EN 각각 BLEU를 향상시키며, 더 큰 트랜스포머 계열에서도 추가 이득이 나타난다.
  • 시각화 및 특이값 분석은 MLE-CosReg 하에서 임베딩이 보다 균등하게 분포하고 스펙트럼이 더 균형 잡히게 나타남을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.