QUICK REVIEW

[논문 리뷰] Multiplicative LSTM for sequence modelling

Ben Krause, Liang Lu|arXiv (Cornell University)|2016. 09. 26.

Topic Modeling참고 문헌 35인용 수 88

한 줄 요약

이 논문은 장기 기억 단기 기억(기억단기기억, LSTM) 유닛과 곱셈형 순환 신경망(mRNN)의 가중치 분해를 조합하여 입력에 따라 다를 수 있는 은닉 상태 전이를 가능하게 하는 새로운 순환 신경망 아키텍처인 곱셈형 LSTM(mLSTM)을 제안한다. 각 입력에 대해 별개의 순환 함수를 허용함으로써 mLSTM은 자동회귀적 시계열 모델링에서 표현력과 강인성을 향상시키며, 문자 수준의 언어 모델링 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성한다. 이는 text8에서 1.27 비트/문자, Hutter Prize에서 1.24 비트/문자로 기록되었으며, 표준 LSTM 및 딥 버전보다 뛰어난 성능을 보였다.

ABSTRACT

We introduce multiplicative LSTM (mLSTM), a recurrent neural network architecture for sequence modelling that combines the long short-term memory (LSTM) and multiplicative recurrent neural network architectures. mLSTM is characterised by its ability to have different recurrent transition functions for each possible input, which we argue makes it more expressive for autoregressive density estimation. We demonstrate empirically that mLSTM outperforms standard LSTM and its deep variants for a range of character level language modelling tasks. In this version of the paper, we regularise mLSTM to achieve 1.27 bits/char on text8 and 1.24 bits/char on Hutter Prize. We also apply a purely byte-level mLSTM on the WikiText-2 dataset to achieve a character level entropy of 1.26 bits/char, corresponding to a word level perplexity of 88.8, which is comparable to word level LSTMs regularised in similar ways on the same task.

연구 동기 및 목표

고정된, 입력에 영향을 받지 않는 은닉 상태 전이로 인해 예기치 않은 또는 잘못된 입력에 회복하기 어려운 표준 RNN의 한계를 해결하기 위해.
장기 기억을 덮어쓰지 않으면서도 입력에 특화된 민첩한 순환 전이 함수를 가능하게 하여 시계열 모델링의 표현력을 향상시키기 위해.
LSTM의 기억 제어 기능과 mRNN의 입력에 의존하는 역학을 결합하여 자동회귀 밀도 추정에서 더 뛰어난 성능을 내는 순환 아키텍처를 개발하기 위해.
입력에 따라 다를 수 있는 전이가 깊은 아키텍처나 정규화 기법만으로도 슈퍼리얼 성능을 낼 수 있는지 평가하기 위해.

제안 방법

mLSTM는 LSTM의 게이팅 메커니즘과 mRNN의 분해된 가중치 행렬을 통합하여, 은닉 상태 간 전이가 현재 입력에 의해 조절되도록 한다.
은닉 상태 갱신은 이전 은닉 상태와 입력에 따라 달라지는 게이팅 벡터 간의 곱셈 상호작용을 통해 계산되며, 이는 각 입력 기호에 대해 별개의 전이 함수를 가능하게 한다.
모델은 각 입력 기호에 대해 별도의 파라미터 세트를 사용하여 입력에 특화된 전이 역학을 가능하게 하되, LSTM 게이팅을 통해 장기 기억을 유지한다.
과적합을 방지하기 위해 임bedding 및 은닉 레이어에 가중치 정규화와 변동형 드롭아웃(0.5)과 같은 정규화 기법을 적용한다.
모델은 순차 생성을 위한 교차 엔트로피 손실을 사용하여 엔드 투 엔드로 훈련되며, 문자 수준 및 바이트 수준 작업에서 비트/문자 및 퍼플렉서티를 통해 평가된다.
이 방법은 표준 벤치마크인 text8, Hutter Prize, WikiText-2를 사용하여 문자 수준 및 바이트 수준 모델링 모두에서 평가된다.

실험 결과

연구 질문

RQ1입력에 따라 다를 수 있는 순환 전이 함수는 표준 LSTM 및 그 딥 버전 대비 시계열 모델링 성능 향상에 기여하는가?
RQ2LSTM 게이팅과 곱셈형 가중치 분해의 조합은 고정된 전이 함수보다 예상치 못한 입력에 더 강인한가?
RQ3깊은 순환 아키텍처나 복잡한 정규화 기법에 의존하지 않고도 mLSTM은 문자 수준 언어 모델링에서 경쟁 가능한 성능을 달성할 수 있는가?
RQ4어떻게 mLSTM는 단어 수준 모델 대비 바이트 수준 모델링에서 성능을 내며, 서브워드 단위를 모델링하더라도 유사한 퍼플렉서티를 달성할 수 있는가?

주요 결과

mLSTM는 text8 데이터셋에서 1.27 비트/문자로 문자 수준 언어 모델링의 새로운 최신 기술 수준 성능을 달성하였다.
Hutter Prize 벤치마크에서 mLSTM는 1.24 비트/문자에 도달하여 이전 최고 성능과 동일한 결과를 기록하였으며, 장기적 맥락을 가진 시계열 모델링에서 강력한 성능을 보였다.
순수하게 바이트 수준의 mLSTM 모델은 테스트 세트 교차 엔트로피가 1.2649 비트/문자로 측정되었으며, 이는 WikiText-2에서 단어 수준 퍼플렉서티 88.8에 해당한다.
서브워드 단위를 모델링하고 있음에도 불구하고, 바이트 수준 mLSTM의 성능는 고도로 정규화된 복잡한 아키텍처를 사용하는 최신 기술 수준의 단어 수준 LSTMs와 유사한 성능을 보였다.
모든 평가된 문자 수준 언어 모델링 작업에서 mLSTM는 표준 LSTM 및 딥 LSTM 버전을 모두 앞서며, 입력에 따라 다를 수 있는 전이의 이점이 있음을 시사한다.
오직 두 개의 선형 순환 전이 행렬만으로도 경쟁 가능한 성능를 달성함으로써, 입력에 따라 다를 수 있는 역학이 존재할 경우 높은 순환 깊이가 강력한 성능을 내기 위해 반드시 필요한 것은 아님을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.