QUICK REVIEW

[논문 리뷰] Breaking the Softmax Bottleneck: A High-Rank RNN Language Model

Zhilin Yang, Zihang Dai|arXiv (Cornell University)|2017. 11. 10.

Topic Modeling참고 문헌 34인용 수 64

한 줄 요약

이 논문은 언어 모델의 Softmax 병목 현상을 밝히고 Mixture of Softmaxes (MoS)를 제안하여 표현 랭크를 높이고 PTB, WT2, 및 1B Word 데이터셋에서 perplexity를 개선합니다.

ABSTRACT

We formulate language modeling as a matrix factorization problem, and show that the expressiveness of Softmax-based models (including the majority of neural language models) is limited by a Softmax bottleneck. Given that natural language is highly context-dependent, this further implies that in practice Softmax with distributed word embeddings does not have enough capacity to model natural language. We propose a simple and effective method to address this issue, and improve the state-of-the-art perplexities on Penn Treebank and WikiText-2 to 47.69 and 40.68 respectively. The proposed method also excels on the large-scale 1B Word dataset, outperforming the baseline by over 5.6 points in perplexity.

연구 동기 및 목표

전통적인 Softmax 기반 언어 모델이 맥락에 의존하는 분포를 표현하는 한계를 식별한다.
Softmax 병목을 정의하기 위해 언어 모델링을 행렬 분해 문제로 공식화한다.
매개변수 수의 급격한 증가 없이 표현력을 높이기 위해 MoS를 제안한다.
표준 벤치마크에서 perplexity의 개선을 입증하고 경험적 랭크 증거를 제공한다.
표준 언어 모델링을 넘어 MoS의 일반화 가능성과 적용 가능성을 논의한다.

제안 방법

맥락 벡터와 어휘 임베딩을 각각 Hθ와 Wθ로 표현하는 행렬 분해로 언어 모델링을 모델링한다.
로그-확률 행렬 A와 그 순위 제약을 통해 Softmax 병목을 정의한다.
K개의 구성요소를 갖는 Pθ(x|c)=sum_k πc,k softmax(hc,kᵀ wx)로 MoS를 도입한다.
MoS가 여러 Softmax 구성요소의 로그-합-지수(log-sum-exp)를 만들어 더 높은 랭크의 A를 근사할 수 있다고 주장한다.
MoS를 MoC(특징 공간의 혼합)와 비교하고 왜 MoS가 랭크 병목을 더 잘 깨뜨리는지 보여준다.
랭크 증가와 perplexity 개선 간의 경험적 연관성을 제공한다.

실험 결과

연구 질문

RQ1높은 맥락 의존성을 고려할 때 분산된 단어 임베딩을 갖는 표준 Softmax가 자연어를 모델링할 충분한 용량을 가지는가?
RQ2이산 잠재 구성요소(MoS)를 도입하면 로그-확률 행렬의 유효 랭크를 증가시켜 perplexity를 개선할 수 있는가?
RQ3표준 벤치마크에서 표현력, 일반화, 효율성 면에서 MoS가 기준선(MoC, Softmax)과 어떻게 비교되는가?

주요 결과

MoS는 PTB와 WT2에서 강력한 기준선 대비 perplexity를 크게 개선하여 각각 47.69 및 40.68을 달성한다.
1B Word 데이터셋에서 MoS는 비교 가능한 모델 크기에서 Softmax보다 5.6이 넘는 perplexity 포인트로 우수하다.
경험적 증거는 MoS가 Softmax나 MoC보다 훨씬 높은 로그-확률 행렬 랭크를 유도하며 현실적인 어휘 크기에서 거의 전체 랭크에 근접하게 한다.
삭제 실험은 이득이 하이퍼파라미터 선택이나 추가 계층이 아니라 MoS 구조 때문임을 시사한다.
MoS는 맥락 의존적 다음 토큰 예측에서 개선을 보이며 과도한 과적합 없이도 경쟁력 있는 일반화를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.