QUICK REVIEW

[논문 리뷰] Recurrent Neural Networks (RNNs): A gentle Introduction and Overview

Robin M. Schmidt|arXiv (Cornell University)|2019. 11. 23.

Topic Modeling참고 문헌 16인용 수 150

한 줄 요약

RNN 기초 및 발전의 간결한 개요로, BPTT, LSTMs, DRNNs, BRNNs, seq2seq, Attention, Transformer, 및 Pointer Networks를 포함합니다.

ABSTRACT

State-of-the-art solutions in the areas of "Language Modelling & Generating Text", "Speech Recognition", "Generating Image Descriptions" or "Video Tagging" have been using Recurrent Neural Networks as the foundation for their approaches. Understanding the underlying concepts is therefore of tremendous importance if we want to keep up with recent or upcoming publications in those areas. In this work we give a short overview over some of the most important concepts in the realm of Recurrent Neural Networks which enables readers to easily understand the fundamentals such as but not limited to "Backpropagation through Time" or "Long Short-Term Memory Units" as well as some of the more recent advances like the "Attention Mechanism" or "Pointer Networks". We also give recommendations for further reading regarding more complex topics where it is necessary.

연구 동기 및 목표

RNN(순환 신경망)의 기초 및 시퀀스 데이터 작업에서의 활용을 소개한다.
Backpropagation Through Time (BPTT) 및 그 잘림(truncation) 변형으로의 학습 방법을 설명한다.
주요 RNN 구조(LSTMs, DRNNs, BRNNs) 및 고급 모델(인코더-디코더, seq2seq, 어텐션, Transformer, Pointer Networks)을 논의한다.
기초 논문에 대한 참고를 통해 읽기 및 향후 주제에 대한 지침을 제공한다.

제안 방법

RNN의 은닉 상태와 출력에 대한 수학적 표기법을 제시한다.
Backpropagation Through Time(BPTT) 방정식을 도출하고 장기 의존성을 완화하기 위한 잘림(truncation)을 강조한다.
LSTM 게이트 계산 및 메모리 셀 업데이트를 설명한다.
양방향 R과 순방향/역방향 상태를 출력에 결합하는 방법을 설명한다.
인코더-디코더(seq2seq) 아키텍처와 어텐션 기반 강화 기능을 소개한다.
Transformer 아키텍처와 다중 헤드 자기 주의(multi-head self-attention)의 역할을 개요한다.
입력 요소에 대한 포인터를 출력으로 하는 seq2seq의 특수화로서 Pointer Networks를 소개한다.

실험 결과

연구 질문

RQ1기본 RNN의 핵심 계산 단계와 학습 절차는 무엇이며, 피드포워드 네트워크와 어떤 차이가 있는가?
RQ2LSTM 및 related gated architectures가 긴 시퀀스에서 소실/발산 그래디언트 문제를 어떻게 다루는가?
RQ3인코더-디코더 아키텍처, 어텐션 메커니즘, 그리고 Transformer 모델이 시퀀스-투-시퀀스 작업에서 어떤 역할을 하는가?
RQ4Pointer Networks가 seq2seq를 확장하여 고정 어휘 출력이 아니라 입력 요소의 포인터를 출력하도록 하는 방법은 무엇인가?

주요 결과

BPTT는 RNN을 시간 스텝 간의 그래디언트 기반 학습이 가능하도록 피드포워드와 유사한 구조로 확장한다.
잘림 BPTT는 시간에 걸친 역전파의 실용적인 상한을 제공하여 계산 부하를 줄이고 학습을 안정화한다.
LSTMs는 게이트와 기억 셀을 도입하여 소실되는 그래디언트를 완화하고 긴 시퀀스에서 학습을 가능하게 한다.
양방향 RNN은 시퀀스를 양 방향으로 처리하고 은닉 상태를 연결하여 미래 맥락을 포함한다.
인코더-디코더(seq2seq) 모델은 입력 시퀀스에서 출력 시퀀스로의 매핑을 가능하게 하며, 어텐션은 정렬 및 성능을 향상시킨다.
Transformer 모델은 재귀를 자체 어텐션으로 대체하고, 다중 헤드 어텐션과 위치 인코딩을 사용하여 병렬화를 가능하게 한다. Pointer Networks는 입력 요소에 대한 포인터 출력으로 seq2seq를 더 확장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.