Skip to main content
QUICK REVIEW

[논문 리뷰] Quaternion Recurrent Neural Networks

Titouan Parcollet, Mirco Ravanelli|HAL (Le Centre pour la Communication Scientifique Directe)|2018. 06. 12.
Neural Networks and Applications인용 수 42
한 줄 요약

이 논문은 퀘터니온 값을 갖는 순환 신경망(QRNN)과 퀘터니온 LSTM(QLSTM)을 도입하여 외부 및 내부 특징 의존성을 퀘터니온 대수를 사용해 모델링하고, TIMIT(및 WSJ)에서 실수값 RNN/LSTM보다 파라미터 수가 훨씬 적은 경우에도 더 나은 음소 인식을 달성한다.

ABSTRACT

Recurrent neural networks (RNNs) are powerful architectures to model sequential data, due to their capability to learn short and long-term dependencies between the basic elements of a sequence. Nonetheless, popular tasks such as speech or images recognition, involve multi-dimensional input features that are characterized by strong internal dependencies between the dimensions of the input vector. We propose a novel quaternion recurrent neural network (QRNN), alongside with a quaternion long-short term memory neural network (QLSTM), that take into account both the external relations and these internal structural dependencies with the quaternion algebra. Similarly to capsules, quaternions allow the QRNN to code internal dependencies by composing and processing multidimensional features as single entities, while the recurrent operation reveals correlations between the elements composing the sequence. We show that both QRNN and QLSTM achieve better performances than RNN and LSTM in a realistic application of automatic speech recognition. Finally, we show that QRNN and QLSTM reduce by a maximum factor of 3.3x the number of free parameters needed, compared to real-valued RNNs and LSTMs to reach better results, leading to a more compact representation of the relevant information.

연구 동기 및 목표

  • 시퀀스 데이터의 내부 및 외부 의존성을 포착하기 위해 퀘터니온 대수를 활용한 다차원 특징 모델링의 동기를 부여한다.
  • 퀘터니온 값 입력, 가중치 및 활성화를 갖는 QRNN 및 QLSTM 아키텍처를 제안한다.
  • QBPTT를 포함한 퀘터니온 특화 학습 알고리즘과 퀘터니온 정규화 기반의 매개변수 초기화를 개발한다.
  • 음성 인식 벤치마크(TIMIT, WSJ)에서 성능 및 매개변수 효율성을 시연한다.
  • 저자들은 파라미터 수가 줄어든 점을 고려할 때 자원 제약 디바이스에 대한 잠재적 이점을 강조한다.

제안 방법

  • 레이어 변환에 해밀턴 곱을 사용하여 RNN을 퀘터니온 값 계산으로 확장한다.
  • 각 퀘터니온 성분(실수, i, j, k)을 개별적으로 활성화하는 분할 활성화 구조를 사용한다.
  • 퀘터니온 가중치의 그래디언트를 계산하기 위해 퀘터니온 역전파를 적용한다(QBPTT).
  • 극형식(polar form)과 퀘터니온 정규화를 기반으로 한 퀘터니온 특화 가중치 초기화 절차를 도입한다.
  • 구성 요소별 게이트를 갖는 QLSTM(구성 요소별 게이트)과 양방향 학습 설정을 유도한다.

실험 결과

연구 질문

  • RQ1퀘터니온 값 RNN(QRNN)과 QLSTM이 내부 특징 간의 의존성과 특징 간 의존성을 실수값 버전보다 더 효율적으로 포착할 수 있는가?
  • RQ2QRNN과 QLSTM이 훨씬 적은 파라미터 수를 사용하면서 경쟁력 있거나 우수한 음소 인식을 달성하는가?
  • RQ3QRNN/QLSTM의 표준 음성 벤치마크(TIMIT, WSJ)에서 RNN/LSTM과 비교하여 어떤 성능을 보이는가?
  • RQ4안정적인 퀘터니온 값 네트워크를 위한 초기화 및 학습 전략은 무엇인가?

주요 결과

  • QRNN 및 QLSTM이 TIMIT에서 음소 오류율(PER) 면에서 RNN/LSTM 기본형보다 우수하다.
  • 최적의 TIMIT 테스트 PER: QRNN 18.5% 및 QLSTM 15.1%로, RNN 19.0% 및 LSTM 15.3%와 비교.
  • QRNN 및 QLSTM은 실수값 대응 모델에 비해 최대 3.3배 적은 학습 가능한 매개변수로 유사하거나 더 나은 성능을 달성한다.
  • 다양한 아키텍처에서 QRNN과 QLSTM은 매개변수 효율성을 크게 보여주며, 일부 구성을 통해 4배에서 16배까지 감소가 관찰된다.
  • 모델 전반에 걸쳐 퀘터니온 변형은 매개변수의 일부만 사용하더라도 경쟁력 있는 PER을 유지한다(예: 256 뉴런의 QRNN: 3.8M 파라미터 vs RNN 9.4M; 256 뉴런의 QLSTM: 14.4M vs LSTM 46.2M).
  • 표 1 및 표 2는 TIMIT에서 여러 구성에 대한 상세 PER 및 매개변수 수를 보고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.